Volver

CORGA 3.0.

Nova versión do Corpus Documental do GAlego Actual, unha ferramenta en liña do Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH)

  • CORGA 3.0.

    CORGA 3.0.

O CORGA é un corpus documental desenvolvido no CRPIH, por medio dun convenio de colaboración coa USC, e integrado por distintos tipos de textos -xornais, semanarios, revistas, ensaios e textos de ficción (novela, relato curto e teatro)- que abrangue temporalmente desde o ano 1975 ata a actualidade e que está codificado no estándar XML (eXtensible Markup Language). A amplitude de documentos que o configuran e os criterios empregados na súa selección permiten considerar este corpus representativo do uso lingüístico do galego actual.

A nova versión ampliada consta de case 36,8 millóns de palabras, das que algo máis de 570.000 son formas diferentes. Nela, unifícanse os dous sistemas de consulta en liña dispoñibles anteriormente (o do CORGA e o do CORGAetq) nun único sistema que dá cabida ás diferentes aproximacións de busca e preséntase un motor de busca excepcionalmente potente que sitúa o galego na vangarda dos corpus lingüísticos.

Outras das novidades que achega é a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90, en cuxas transcricións se aliña o texto coa voz, de xeito que no sistema de recuperación de información a persoa usuaria ten, de máis a máis, a posibilidade de escoitar o fragmento de audio que corresponde ao contexto dos resultados obtidos. Porén, sen dúbida, a característica máis sobresaliente desta versión do corpus é a etiquetaxe automática da totalidade dos documentos que o conforman empregando o Etiquetador/Lematizador do Galego Actual (XIADA), desenvolvido conxuntamente polo Centro Ramón Piñeiro e polo grupo COLE das universidades da Coruña e Vigo.