Hizkuntza baliabideak

Hizkuntza-teknologiak sustatzeko proiektu transbertsalak

Administrazio Publikoan zein sektore pribatuan lehentasunezkoa da berrikuntza, hau da, teknologia gaurkotuak aplikatzeko proiektuak bultzatzea. Planteamendu estrategikoetatik abiatuta, proiektu zehatzak behar dituzte enpresa pribatuek nahiz administrazio publikoak. Izan ere, proiektu egingarrien bitartez egiaztatu ahal izango da zer onura dakartzaten aurrerakuntza teknologikoek edozein arlotan.

Learning about phraseology from corpora: A linguistically motivated approach for Multiword Expression identification.

Multiword Expressions (MWEs) are idiosyncratic combinations of words which pose important challenges to Natural Language Processing. Some kinds of MWEs, such as verbal ones, are particularly hard to identify in corpora, due to their high degree of morphosyntactic flexibility. This paper describes a linguistically motivated method to gather detailed information about verb+noun MWEs (VNMWEs) from corpora. Although the main focus of this study is Spanish, the method is easily adaptable to other languages.

HARTAvas: Estudio de las combinaciones léxicas vascas en un corpus académico de noveles para una Herramienta de Ayuda a la Redacción de Textos Académicos

Más de la mitad de los estudiantes de la universidad pública vasca utilizan el vasco como lengua vehicular, y se enfrentan al reto de comprender y producir los géneros textuales característicos de la comunicación académica. Para ello, necesitan familiarizarse con las combinaciones léxicas académicas recurrentes de dichos géneros (CLA): colocaciones, marcadores discursivos y otras fórmulas discursivas. La proliferación de herramientas de ayuda para la redacción en lenguas de uso preponderante en el entorno académico como el inglés, evidencia la dificultad que para los estudiantes entraña la adquisición de las CLA, a pesar de que sean usadas de forma recurrente en los textos utilizados en su formación. Nuestra hipótesis de partida es que la adquisición de las CLA en vasco es aún más dificultosa debido a varias razones relacionadas con el estatus sociolingüístico de la lengua: a) Muchas CLA no se han fijado aún y presentan mayor grado de variación que en lenguas bien establecidas. b) Algunas combinaciones de palabras que no son correctas desde el punto de vista semántico o sintáctico se convierten en recurrentes y multiplican rápidamente su presencia en los textos. Sin embargo, es necesario estudiar el alcance real de las hipotéticas dificultades en corpus. Para ello, compilaremos un corpus vasco de noveles y lo compararemos con el corpus HARTA de noveles en español. Queremos testar la posibilidad de extraer combinaciones bilingües español-vasco aplicando técnicas de semántica distribucional en corpus comparables. De este modo, podremos aprovechar el trabajo de asignación de funciones discursivas a las CLA establecidas en HARTA a partir del corpus de expertos en español. El objetivo global de este subproyecto es investigar el uso de las CLA por parte de los estudiantes que utilizan el vasco en sus trabajos académicos y compararlo con el de los estudiantes que utilizan el español. El fin aplicado es el diseño de una herramienta de ayuda a la escritura académica tanto en vasco como en español que integre tanto léxico como corpus. Esta herramienta ayudaría a los estudiantes a desarrollar sus destrezas para la escritura académica y, además, contribuiría a la normalización de los registros académicos del vasco.

DeepText

DeepText proiektuan Euskal Herrian dagoen hizkuntzaren teknologiari lotutako industria sustatu nahi da, eta, horretarako, adimen artifizialeko azken teknikak erabiltzen dituzten hizkuntza eredu neuronalak jorratuko dira bertan. Zehazki, proiektuak euskara zein gaztelerarako hizkuntza ereduak sortuko ditu, hizkuntzaren prozesamendurako oinarrizko baliabideak izango direnak.

LUTEST: LANGUAGE UNDERSTANDING TEST SETS

El éxito reciente en la aplicación del aprendizaje profundo en aplicaciones de Procesamiento del Lenguaje Natural ha tenido un gran impacto en el campo. La traducción automática, la respuesta a preguntas, la generación de texto y el análisis de sentimientos son las áreas en las que el avance ha sido más espectacular, pero a costa de requerir grandes cantidades de datos para cada tarea. Se ha demostrado que los métodos de aprendizaje profundo muestran una severa degradación del rendimiento cuando se entrenan con

Pages

Subscribe to RSS - Hizkuntza baliabideak