PROSA-MED: PROcesamiento Semántico textual Avanzado para la detección de diagnósticos, procedimientos, otros conceptos y sus relaciones en informes MEDicos.

Deskribapen motza (eu): 
PROSA-MED: testuen prozesamendu semantiko aurreratua diagnostikoak, prozedurak, kontzeptu medikoak eta beraien arteko erlazioak txosten medikoetan.

Osasun-sektoreak garrantzia handia du gizartearen bizi-kalitaterako eta baita bere disziplina-arteko izaeragatik. Egunero, milaka dokumentu mediko sortzen dira osasun sisteman (ospitaleak, osasun-zentroak), eta testuen analisi automatikorako tresnek aurrerapen handia ekar dezakete, testu horietan dagoen ezagutza prozesatuz.

Proiektuak lan hauek egiteko tresna-multzo zabala eta eraginkorra sortuko du, eginkizun hauetarako:

- Testu medikoen analisi morfologiko, sintaktiko eta semantikoa

- CIE-10 kodeketaren bidezko esleipena txosten medikuei

- Kontzeptu medikoen arteko erlazioen detekzioa, horien artean aurkako erreakzioen detekzioa

Deskribapen motza (en): 
PROSA-MED: Advanced semantic textual processing for the detection of diagnostic codes, procedures, concepts and their relationships in health records
Deskribapena (en): 

The Health area plays a key role in our society, not only due to its impact in the welfare state but also because of its multidisciplinary impacts. The number of documents in the medical domain generated by the healthcare centers (hospitals and primary care) grows constantly, hence, the development of automatic tools for textual analysis may imply a decisive advance for health systems.
Language Technologies provide different tools for textual analysis that can be of much aid to the medical personnel and consequently lead to an increment in their productivity. The consortium of research groups from different universities and health institutions presented in this project is convinced that a big step ahead can be made in this field. Our objective is to propose solutions for the automatic processing of Medical Records that currently imply an important soothe in person-time and economic costs. We present three main use cases: 1) automatic diagnosis of medical records, 2) detection of adverse drug effects and 3) detecting relationships among concepts that will allow the discovery of new medical knowledge. The types of relations identified in the 2nd use case will be relevant to improve the 1st use case, and will also be used in the 3rd use case 3 in order to establish patterns regarding a patient's medical history.
This project will develop a set of processors that will allow the automatic analysis of medical texts using criteria such as robustness, high precision and coverage. The project will provide the medical personnel a wide and flexible set of tools, linguistic, semantic and terminological resources that will be applied to different types of medical texts to leverage the following tasks:
- Morphologic, syntactic and semantic analysis adapted to texts in the medical domain, improving the state of the art in this area, paying a special emphasis to entity recognition.
- Assignment of diagnostic codes to medical records following the ICD-10 coding.
- Detection of relationships between concepts, in order to advance the discovery of evidence not explicitly coded in texts.
The project will make use of both supervised and unsupervised techniques. The approach is suitable for different languages, including Spanish, an ambitious objective due to its relevance in multiple health systems of different countries. Moreover, we will also tackle languages with different characteristics and level of development in the medical domain: Catalan and Basque. The work developed in this project will leverage public and private companies, as it will develop software that will be available for SMEs and other companies that are interested in developing products for the health area. The participating entities represent 3 different health systems (Madrid, Cataluña and the Basque Country), but the system will be easily ported to all the Spanish Health system. Given the experience of the research groups taking part in this project, we expect that it will produce an important scientific impact in the form of papers published in high impact venues, as journals and conferences, generating new knowledge that will make a step ahead in several scientific areas.   

Deskribapen motza (es): 
PROSA-MED: PROcesamiento Semántico textual Avanzado para la detección de diagnósticos, procedimientos, otros conceptos y sus relaciones en informes MEDicos.
Deskribapena (es): 

El sector sanitario constituye un sector de vital importancia tanto por su papel en el estado del bienestar como por su carácter multidisciplinar. El número de documentos del dominio médico generados por los centros de atención al paciente (hospitales y atención primaria) aumenta constantemente y en el que el desarrollo de herramientas automáticas de análisis textual puede suponer un gran avance crucial para los sistemas de salud. Las Tecnologías de la Lengua disponen de herramientas para realizar el análisis textual que ayude al personal médico a aumentar su productividad redundando en el beneficio de todos. El consorcio de grupos de investigación de las Universidades e instituciones del ámbito sanitario que presentamos este proyecto está convencido de la factibilidad de realizar un importante salto tecnológico en este campo. Nuestro objetivo es proponer soluciones en el tratamiento de Informes Clínicos Hospitalarios e Historia Clínica Electrónica a procesos que en la actualidad suponen un gran coste personal y económico. Presentamos tres casos de uso: 1) codificación automática de informes médicos, 2) la detección de reacciones adversas a medicamentos y 3) detección de relaciones entre conceptos que permitan descubrir nuevo conocimiento médico. El tipo de relación identificada en el caso 2 será primordial para facilitar y mejorar la solución del caso 1 y ambos, a su vez, se utilizarán en el caso 3 para establecer patrones sobre el historial clínico de un paciente.
En este proyecto se desarrollarán un conjunto de procesadores que permitirán el análisis automático de textos médicos teniendo en cuenta criterios de robustez, alta precisión y cobertura. El proyecto pondrá a disposición del personal médico un conjunto amplio y versátil de herramientas, recursos lingüísticos, terminológicos, y semánticos que se aplicarán al tratamiento de los tipos de texto mencionados para las siguientes tareas:

- Análisis morfológico, sintáctico y semántico adaptado a textos médicos de acuerdo al estado del arte en el área y haciendo especial énfasis en el reconocimiento de entidades.

- Asignación de códigos diagnósticos a informes médicos según la CIE-10.

- Detección de relaciones entre conceptos como paso previo avanzar en el área de descubrir evidencias no explícitamente expresadas en los textos.

El proyecto hará uso de técnicas supervisadas y no supervisadas. Además, es importante indicar que se desarrollarán herramientas para distintas lenguas. El español constituye un objetivo ambicioso, dado su amplio uso en los sistemas de salud de multitud de países. Además, se explorarán lenguas con diferentes características y grados de desarrollo en el ámbito médico: catalán y vasco. El trabajo desarrollado en este proyecto tiene un gran interés en el entorno empresarial público y privado, ya que se proporcionará software que estará disponible para PYMES u otras empresas que tengan interés en desarrollar productos en el dominio médico. Las entidades participantes representan a tres sistemas de salud públicos (Cataluña, Madrid y País Vasco) pero podrá aplicarse a otros ámbitos y áreas de aplicación. Además, dada la experiencia de los grupos de investigación participantes, se espera que este proyecto genere también un importante impacto científico en forma de publicaciones, generando nuevo conocimiento que supondrá un avance en distintas áreas científicas.

Kode ofiziala: 
TIN2016-77820-C3-1-R
Ikertzaile nagusia: 
Arantza Diaz de Ilarraza, Koldo Gojenola
Erakundea: 
Ministerio de Economía y Competitividad
Saila: 
Ministerio Economía y Competitividad
Hasiera data: 
2016/12/30
Bukaera data: 
2019/12/29
Taldeko ikertzaile nagusia: 
Arantza Díaz de Ilarraza
Koldo Gojenola
Besteak: 
Itziar Irigoien, Itziar San Martin
Kontratua: 
Ez
HiTZ