Volver

CORGA 3.2.

Nova versión do Corpus Documental do Galego Actual, unha ferramenta en liña do Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH)

  • CORGA 3.2.

    CORGA 3.2.

O Corpus de Referencia do Galego Actual (CORGA) é un corpus documental integrado por distintos tipos de textos representativos da lingua galega actual que están codificados na linguaxe estándar XML (eXtensible Markup Language) e que abranguen cronoloxicamente dende 1975 ata a actualidade. A codificación practicada afecta principalmente á información bibliográfica e á estruturación do documento, e posibilita realizar consultas, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non, segundo diversos criterios que poden combinarse dependendo das necesidades do usuario: período temporal, área temática, tipo de documento, parte do documento etc.

O corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o integran, e mais coa incorporación de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz, co que na recuperación de información é posible reproducir o fragmento sonoro que corresponde ao resultado que se amosa.

A presente aplicación facilita a obtención de datos lingüísticos mediante unha ferramenta de consulta que dá cabida ás diferentes aproximacións de busca: palabras ortográficas, elementos gramaticais, clases de palabras, etiquetas, trazos morfolóxicos, lemas ou hiperlemas. Así, o sistema permite extraer os datos referentes ás frecuencias simples e completas, ou visualizar a información recuperada, ben en forma de concordancias ben en forma de expresións coincidentes. Así mesmo, a xeito de dicionario de frecuencias e a través dun módulo accesible dende a pestana Frecuencias, facilítase a obtención personalizada das frecuencias relativas a formas, etiquetas, lemas e hiperlemas mediante os parámetros lingüísticos e clasificatorios dispoñibles no sistema.

 

Novidades do CORGA 3.2.

 

O corpus, enriquecido automaticamente coa lematización e etiquetaxe morfosintáctica dos seus textos, contén 40.178.271 palabras ortográficas (48.184.012 elementos gramaticais) pertencentes maioritariamente a distintos tipos de textos escritos representativos do galego actual, mais tamén inclúe 25 horas de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz.

A versión 3.2 presenta como novidades salientables as seguintes:

  • visualización da información recuperada en forma de expresións coincidentes, de xeito que os resultados iguais redúcense a un.
  • a modo de dicionario de frecuencias, listaxes personalizadas relativas a formas, etiquetas, lemas e hiperlemas mediante os parámetros lingüísticos e clasificatorios dispoñibles no sistema.

Estas funcionalidades veñen completar as que xa se presentaron na primavera deste mesmo ano na versión 3.1, sintetizadas nas seguintes:

  • complección textual do lustro 2010-2014 e inicio do 2015-2019.
  • recuperación centrada no parámetro interlocutor, o cal permite discriminar entre os textos de carácter oral (entrevistas, coloquios, tertulias, informativos, parte dialogada das obras de teatro e guións...) fronte ós escritos.
  • recoñecemento automático das formas con grafías innovadoras para a linguaxe inclusiva.
  • implementación do hiperlema na modalidade de consulta por elementos gramaticais para minimiza-la variación gráfica nos lemas.