tas en: home » corpus » conocer más

El Corpus Eslema ye una iniciativa de los departamentos de Filoloxía Española ya Informática de la Universidá d'Uviéu, col asesoramientu del Departamentu de Ciencia Computacional de la Universidá de Brandeis.

Incorporáu al Plan Nacional de I+D de 2005, trabayaron nél Xelu Neira y Alfredo Alguero (del Departamentu d'Informática), Xulio Viejo y Taresa Fernández Lorences (de Filoloxía Española), Roser Saurí (Brandeis) y Francisco Rubiera (Georgetown), arriendes de los llicenciaos Arsenio Coto, Javier Linera, Noemí González, Roberto Hinojal, María Cueto, Martín Fernández y Maite Zamora.

¿cómo funciona?

Cómo funciona'l Corpus

1.- Recopilación de testos del Corpus, estremándolos en tres subcorpus: un núcleu principal escritu, un segundu oral y un tercer, históricu.

2.- Dixitalización. Cola fin d'unificar el formatu de los testos procedentes de distintos soportes (al testu planu) y da-yos una estructura asemeyada.

3.- Asignación metadata. Segmentación y marcaxe estructural básicu emplegando un sistema d'etiquetaxe XML.

 

4.- Marcaxe léxicu, morfolóxicu, gramatical y sintáctico-discursivu nel casu del corpus principal.

5.- Desenvolvimientu d'un motor de busca pa la obtención de datos varacionales y estadísticos.

6.- Creacción de lexicones, base nel desarrollu d'otres aplicaciones como revisores ortográficos, gramaticales, analizadores o sistemes de traducción automática.

Inxenería llingüística

Eslema trabaya nel desenvolvimientu ya integración del asturianu con distintos paquetes de software llingüístico (Corpus, Analizador, Traductor).

El desenvolvimientu de un Corpus ye una ferremienta fundamental nel desendolcu y ameyoramientu de futures aplicaciones como sistemes de traducción automática.

Un corpus de la llingua asturiana

El Proyectu Eslema mira a ellaborar un Corpus llingüísticu: una colección de testos orales y/o escritos d'una llingua, en soporte electrónicu que se manden como amuesa representativa pal so estudiu sistemáticu.

Propónse, con éses, un corpus modular que pueda dir construyéndose en distintes fases, siempres a espenses de les fontes de financiación o les posibilidaes organizatives, ensin renunciar por ello a la eficiencia y al algame de llogros más o menos inmediatos.

 

El nuesu oxetivu

Eslema respe por dar esos primeros pasos estableciendo un corpus llingüísticu col que la llingua asturiana entre nel selectivu grupu de llingües en disposición de valise plenamente de les virtualidaes ufiertaes poles nueves tecnoloxíes.

Pente medies d'un corpus etiquetáu de más de 10.000.000 de palabres aspírase a un tratamientu informáticu básicu de los testos col envís d’algamar un sistema potente de cata d’información, disponible parcialmente en Internet dende 2006.

 

La tecnoloxía XML al algame del corpus

En casu del corpus principal, el marcaxe al traviés d’etiquetes XML va faese dende’l nivel léxicu (raíces léxiques, locuciones, perífrasis y frases), hasta el morfolóxicu (afixos y morfemes verbales y nominales) y gramatical (especificación de categoríes).

Con eses bases puede entamase la ellaboración d' aplicaciones informátiques empuestes tanto al ámbitu investigador como a la normalización llingüística, casu del Traductor.

 

Universid d'Uviu
© Copyright | W3C XHTML Validation | W3C CSS Validation | Creative Commons License