Avances en el tratamiento de textos en español

Por Antonio Moreno Sandoval

La colaboración entre la lingüística y la informática está permitiendo el tratamiento y el análisis de grandes colecciones de datos textuales. El proyecto PROTEUS y sus aplicaciones muestran los avances realizados con textos en español.

1. ¿QUE ES EL PROCESAMIENTO INFORMÁTICO DE LAS LENGUAS NATURALES?

Desde hace más de tres décadas se está trabajando en lo que se conoce como Lingüística Computacional o también Procesamiento del Lenguaje Natural: una disciplina aplicada que reúne los contenidos de dos ciencias, la Lingüística y la Informática. La idea de que los ordenadores puedan entender realmente el lenguaje humano (y no simplemente instrucciones que deben ser escritas de una manera rígida y concreta) ha estado en la mente de todos desde que los ordenadores comenzaron a intervenir en nuestras vidas. Incluso la literatura y el cine nos han sugerido la posibilidad de poder conversar con máquinas inteligentes (recordemos por ejemplo el ordenador central de 2001: una odisea del espacio, o el robot parlanchín de La guerra de las galaxias). No cabe duda de que no podremos disponer de semejantes colaboradores en un futuro inmediato, pero en cambio muchas actividades podrán realizarse -de hecho se pueden realizar ya- sin el esfuerzo y la dedicación de un ser humano. Nos referimos concretamente a aquellas actividades donde sea necesario el tratamiento de la información codificada en una lengua natural como el español, el inglés o el chino. Por el contrario, se entiende por lenguas artificiales o formales aquellas que han sido creadas por el hombre para formalizar el conocimiento y poder llevar a cabo operaciones con él, por ejemplo, el lenguaje matemático o los lenguejes de programación. La diferencia fundamental con las lenguas naturales es que los lenguajes artificiales carecen de ambigüedad y su sintaxis es mucho más rígida.

Debido precisamente a la flexibilidad y riqueza de las lenguas naturales su tratamiento por ordenador se hace muy complejo y es necesario, por tanto, restringir el campo de aplicación a dominios lingüísticos concretos en busca de patrones sintácticos y semánticos más rígidos que permitan su interpretación de una manera inequívoca. Por ejemplo, en el lenguaje oral se permiten muchas más libertades expresivas que en el escrito: uno puede dejar oraciones incompletas o utilizar palabras aproximadas con la seguridad de que el contexto ayudará a su(s) oyente(s) a entender las ambigüedades e imprecisiones. En un texto escrito -cuando menos- las oraciones tienen que ser gramaticales, y si queremos que nuestros lectores nos entiendan debemos ajustarnos lo más posible a una única interpretación. Consecuentemente, los textos ambiguos, con múltiples lecturas, no son aptos para ser tratados por ordenador. Típicamente son los textos literarios donde el autor juega con el lenguaje de una manera artística. Por el contrario, los textos técnicos y científicos son apropiados para ser interpretados automáticamente: el autor utiliza un lenguaje sin ambigüedades, donde no pretende decir nada más que lo que realmente dice. Normalmente, el número de construcciones sintácticas (sintagmas, oraciones, párrafos) y de palabras no es excesivo, y el vocabulario técnico no es ambiguo: cuando decimos que «el limitador salta cuando se sobrepasa un determinado límite de carga», nos referimos a una de las acepciones del verbo saltar (concretamente, la que no es sinónimo de brincar, dar saltos) y a una acepción particular de carga (la cantidad de electricidad que está soportando el circuito, y que no es equivalente a peso).

Tenemos, por tanto, que un texto ideal para ser tratado por ordenador podría ser un manual de instalaciones eléctricas, por ejemplo. Su vocabulario es inequívoco y sus construcciones sintácticas no son complejas. En resumen, se puede conocer la información que contiene sin mucho margen de error. Dada esta característica, podríamos desarrollar distintos sistemas informáticos que utilizaran esta información. Básicamente, podríamos tener dos aplicaciones: una sería traducir dicho manual a otra lengua -lo que se conoce por traducción automática (1)-; la otra, extraer la información y exponerla en un formato que sea más rápido de leer y consultar (por ejemplo, en forma de registro de base de datos o en forma de plantilla). A esto último se lo denomina extracción o recuperación de información. Si desarrolláramos estos sistemas pensando en traducir o interpretar unos cuantos manuales, obviamente los resultados no compensarían el esfuerzo y la inversión. Pero si trabajáramos con un número grande de textos (o información escrita en otros formatos) el ahorro de tiempo y dinero sin duda sería considerable y, por tanto, la inversión podría ser rentable.

Las administraciones, públicas y privadas, trabajan con enormes cantidades de textos y algunas cuentan con sistemas informáticos que les ayudan a manejarlos de una forma mucho más eficiente. Por ejemplo, la CEE utiliza sistemas de traducción automática para traducir sus documentos a las nueve lenguas oficiales (aunque siempre se requiere la corrección a posteriori de los textos traducidos mecánicamente). El Gobierno americano está desarrollando sistemas para extraer información de textos periodísticos, de manera que la información clave se muestre en unas tablas. No son más que ejemplos de aplicaciones que se utilizan y que se utilizarán en el futuro cercano.

En la actualidad, la aplicación de las últimas innovaciones en el campo del procesamiento de lenguas naturales para el tratamiento automático de grandes colecciones documentales es uno de los objetivos prioritarios de los planes de I+D en el área de tecnología de la información, no solamente a nivel nacional sino especialmente a nivel internacional, donde los países más avanzados llevan investigando desde los años 60.

En resumen, la Lingüística Computacional es una ciencia aplicada (o ingeniería) que se encarga del desarrollo de sistemas informáticos que comprendan las lenguas naturales. Entre otras aplicaciones, hemos citado la traducción automática y la extracción de información pero también se incluyen los interfaces para consultar bases de datos utilizando una lengua natural, o los populares correctores ortográficos, gramaticales y de estilo.

2. EXTRACCIÓN DE INFORMACIÓN DE TEXTOS

Ya hemos hablado de que gran cantidad de información sólo está disponible en forma escrita: manuales, informes técnicos, documentos legales, noticias de periódicos, etc. Muchas veces necesitamos acceder a cierta información que está escondida entre montañas de documentos de una forma rápida y eficiente. Evidentemente, una manera es leerse cada uno de los documentos y comprobar por uno mismo si su contenido nos interesa, pero esto es sin duda costoso. Mucho más útil es tener almacenada una porción de la información total (es decir, la información más relevante) en una forma más estructurada -por ejemplo, en una base de datos convencional- de tal manera que nuestro acceso al contenido de cada documento sea notablemente más rápido.

El objetivo fundamental es tratar de emular la capacidad humana de interpretación de mensajes escritos mediante el uso de programas informáticos. Como cualquier otro tipo de automatización, estos sistemas computacionales liberarán a los especialistas humanos de muchas tareas repetitivas y que exigen, por otra parte, gran esfuerzo de concentración. Una ventaja adicional es que los ordenadores pueden funcionar sin descanso, consiguiendo resultados que sólo se lograrían con una fuerte inversión de personal y tiempo. La característica más sobresaliente de los sistemas de extracción de información es que permiten la cooperación, o, mejor dicho, la combinación de las habilidades más apropiadas de los humanos y de las máquinas: los analistas humanos son claramente superiores a los ordenadores en tareas complejas como la interpretación de información ambigua. En cambio, las máquinas pueden aventajar a los especialistas en tareas que requieren un alto grado de concentración y atención, como por ejemplo buscar en amplias cantidades de textos con baja densidad de información. En estos casos, es frecuente que pase desapercibida información relevante escondida entre montones de datos prescindibles. La tarea de estos sistemas será, por tanto, procesar previamente los textos para filtrar la información relevante de la irrelevante, dejando que los analistas humanos se concentren en las tareas complejas y altamente especializadas. La meta de algunos proyectos informáticos de los últimos años ha sido precisamente desarrollar sistemas de este tipo.

Concretamente, en el New York University (NYU) se está trabajando en este campo desde mediados de los años 70 y en la actualidad disponen de un sistema llamado PROTEUS (PROtotype TExt Understanding System) para analizar y extraer información de textos escritos en inglés. Dicho sistema tiene una cobertura bastante amplia en cuanto a construcciones sintácticas del inglés y su diccionario contiene alrededor de 35.000 entradas léxicas (equivalentes a las entradas de un diccionario impreso). Los autores del artículo han desarrollado un sistema similar para el español. En la actualidad cuenta con una cobertura sintáctica bastante similar a la del inglés, aunque con un diccionario mucho menos elaborado. El dominio temático de aplicación en ambos casos es interpretar textos periodísticos, aunque solamente los informativos y no los artículos de opinión.

A diferencia de otros sistemas de recuperación de información, nuestro sistema no selecciona documentos (o fragmentos de documentos) que pueden contener la información requerida, sino que resume el contenido de los documentos y lo muestra de una forma muy estructurada y accesible, a la que posteriormente se le puede aplicar un proceso de recuperación de información.

Otro aspecto importante es que el usuario de PROTEUS puede modelar el tipo de información que considera relevante. Aunque esto requiere que el dominio temático de los textos esté muy nítidamente acotado y que la estructura de la base de datos se determine antes del procesamiento de los textos. Esto implica que el sistema es reutilizable para diferentes dominios temáticos, siempre que los modelos interpretativos se adapten específicamente a los nuevos temas. Este tipo de sistemas se adapta idealmente a textos y documentos de tipo técnico, como por ejemplo informes médicos, manuales de funcionamiento, reportajes científicos y de medio ambiente, textos jurídicos y administrativos (boletines oficiales, etc.) y textos periodísticos de carácter informativo.

En resumen, los sistemas de extracción de información facilitan el acceso y tratamiento de grandes colecciones de datos textuales, y mejoran la productividad en las tareas de información y análisis.

3. ESTADO ACTUAL DE PROTEUS

Los orígenes del proyecto PROTEUS datan del otoño de 1984. El Prof. R. Grishman, del departamento de Informática de la Universidad de Nueva York,desarrolló un analizador sintáctico que sirviera como base común para todas las aplicaciones que se crearan dentro del proyecto. Muchos aspectos del diseño del sistema reflejan la herencia del famoso y legendario Linguistic String Project, desarrollado (y todavía en uso) por este departamento desde mediados de los años 60 (Sager 1981). El sistema actual incluye un analizador léxico y otro semántico, además del sintáctico, y un generador de plantillas (o registros de bases de datos) especialmente diseñado para la aplicación en extracción de información. El proyecto PROTEUS cuenta con varias aplicaciones, entre ellas la consulta a bases de datos utilizando el inglés para comunicarse con el ordenador, pero sobre todo destaca por su participación en todas las conferencias que ha organizado el Gobierno americano sobre la extracción de información (conocidas como Message Undestanding Conferences, MUC). En las cuatro conferencias que se han convocado desde 1987, PROTEUS se ha situado siempre entre los cinco primeros grupos de investigación en Estados Unidos en esta área. El objetivo de estas conferencias, organizadas y subvencionadas por DARPA (Defense Advanced Research Projects Agency), persigue la evaluación de las distintas tecnologías existentes actualmente en el ámbito de la investigación avanzada en sistemas inteligentes.

El sistema PROTEUS fue desarrollado inicialmente para analizar textos en inglés. En los últimos años se ha extendido también al japonés y al español. La versión española ha sido desarrollada por los autores del artículo durante su estancia de 16 meses en la NYU. Varios artículos y conferencias recogen los resultados de la investigación, que se pueden resumir en los siguientes puntos:

Artículo extraído del nº 41 de la revista en papel Telos

Ir al número

Antonio Moreno Sandoval

VER TODOS LOS ARTÍCULOS DEL AUTOR

Por Antonio Moreno Sandoval

Comentarios

Cancelar la respuesta