Volver

CORGA 3.1.

Nova versión do Corpus Documental do Galego Actual, unha ferramenta en liña do Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH)

  • CORGA 3.0.

    CORGA 3.0.

O Centro Ramón Piñeiro para a investigación en humanidades inclúe entre os seus obxectivos fundacionais o deseño e o desenvolvemento de recursos informáticos que axuden á incorporación da lingua galega ao mundo das novas tecnoloxías da información. O Corpus de Referencia do Galego Actual (CORGA) é un corpus documental aberto que abrangue cronoloxicamente dende 1975 ata a actualidade, cuxo obxectivo é fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas: léxica, morfolóxica, sintáctica, fraseolóxica, terminolóxica, comunicativa etc. O corpus, enriquecido automaticamente coa lematización e etiquetaxe morfosintáctica dos seus textos, contén 40.178.271 palabras ortográficas (48.184.012 elementos gramaticais) pertencentes maioritariamente a distintos tipos de textos escritos representativos do galego actual, mais tamén inclúe 25 horas de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz.

A versión 3.1 presenta as seguintes novidades:

  • complección textual do lustro 2010-2014 e inicio do 2015-2019.
  • recuperación centrada no parámetro interlocutor, o cal permite discriminar entre os textos de carácter oral (entrevistas, coloquios, tertulias, informativos, parte dialogada das obras de teatro e guións...) fronte ós escritos.
  • recoñecemento automático das formas con grafías innovadoras para a linguaxe non sexista.
  • implementación do hiperlema nas modalidades de consulta por elementos gramaticais para minimiza-la variación gráfica nos lemas.
  • incremento das posibilidades de ordenación dos resultados.

 

Dirección e coordinación

Guillermo Rojo e María Sol López Martínez

Lingüistas

Eva María Domínguez Noya

María Caíña Hurtado

Bárbara Bujía Tourón

Equipo informático

NLPgo Technologies, S.L.

José Carlos Sánchez Rivas