Volver

Xiada 2.7

XIADA é un etiquetador estatístico de alta precisión que empregamos para etiquetar e lematizar automaticamente os documentos do CORGA, e poder así dar un salto cualitativo na recuperación de información formulando consultas que utilizan información gramatical (etiquetas, lemas, hiperlemas, clases de palabras, trazos morfosintácticos etc.).

Esta nova versión presenta cambios de consideración:

  • Libérase o código do etiquetador xunto cos recursos que este emprega (corpus de adestramento e lexicón).
  • Amplíase o etiquetario con 71 novas etiquetas para dar cabida ás grafías innovadoras que promoven unha linguaxe non sexista, o que sitúa o tamaño do tagset en 453 etiquetas diferentes.
  • Actualízase a estrutura do lexicón para facilita-la análise das formas que presentan as grafías anteriores, de xeito que nen@, nen@s, nena/o, neno/a, nena/neno, neno/nena etc. intégranse baixo o lema neno, igual ca nena, neno, nenos e nenas.
  • Neutralízase a variación gráfica formal en lemas semellantes relacionándoos a través dun hiperlema (ata acubilla ata, até, hasta, hastra e ate). Nesta versión o lexicón contén 59.360 hiperlemas.
  • Para mellora-la recuperación de información e dado que no corpus podemos achar voces que non seguen a normativa, introdúcense novas entradas no lexicón, tanto de lemas procedentes das formas máis frecuentes do CORGA descoñecidas para o etiquetador, como de desinencias —xerundios ou participios apreciativos (apagandiño, castigadísimos...), pretéritos e futuros rematados en ditongo decrecente acentuado (afirmóu, entréi, demoréi), plurais en -es (animales) e en -s (opciós)—, contraccións nas que están inmersos dialectalismos (dunhos, niste...) etc. En total, o lemario consta de 63.802 lemas, o que dá orixe a 1.136.030 elementos gramaticais.
  • Créanse novas regras para reconstruí-la forma do verbo cando esta non está avalada pola normativa e se amalgama con pronomes enclíticos e/ou segunda forma do artigo: adiantáchete, acheguéime, viróuse etc.

A flexibilidade e potencialidade da aplicación de consulta permite empregar nunha mesma procura comodíns, operadores booleanos, sensibilidade a acentos ou maiúsculas e variables clasificatorias dos documentos combinándoos cos distintos tipos de modalidade de busca, por palabras ortográficas ou elementos gramaticais, ben sucesivos ben descontinuos, o que converte o CORGA nunha ferramenta moi útil para obter datos da lingua galega actual de tipo léxico, gramatical, terminolóxico, fraseolóxico, discursivo etc.

Dirección e coordinación

Guillermo Rojo e María Sol López Martínez

Lingüistas

Eva María Domínguez Noya

María Caíña Hurtado

Bárbara Bujía Tourón

Equipo informático

NLPgo Technologies, S.L.

José Carlos Sánchez Rivas