La extracción de información es una particularidad de la recuperación de información. Mientras que esta trata de traer todos los documentos relevantes, pero sólo los relevantes, aquella busca encontrar los fragmentos en los que se encuentra específicamente la información.

Mientras que extraer una información particular en una base de datos bien estructurada y organizada no conlleva mucho esfuerzo, encontrar esta información en documentos textuales, visuales o auditivos representa un reto mayor. Esto se debe a que este tipo de documentos, si bien pueden ser leídos por una computadora, se encuentran completamente no estructurados o, con suerte, semi-estructurados.

Extracción De InformaciónEs decir, la meta de esta disciplina es encontrar información precisa y estructurada en documentos que carecen de estructura digital completa o parcialmente. Históricamente esta disciplina se ha enfocado al texto, que si bien tienen una estructura interna, esta no está diseñada para los estándares de bases de datos.

Debido a que el problema es muy grande, la extracción de información se hace comúnmente en dominios de especialidad y no generales, por ejemplo la extracción de datos sobre fluctuaciones del clima en las noticias meteorológicas.

A diferencia de otras aplicaciones del procesamiento de lenguaje natural, como el resumen automático por ejemplo, la extracción de información puede evaluarse automática y objetivamente. También las aplicaciones existentes para este tipo de sistemas pueden ser muy variadas, incluido otros sistemas de PLN.

Como durante este curso vamos a trabajar con texto, a continuación se explicará brevemente el tratamiento que se le suele dar a estos con el fin de obtener la información específica contenidos en ellos.

Estructuración del texto

Como se ha dicho anteriormente, se toma el texto que puede ser completamente plano o con diferentes tipos de anotaciones. Cuando el texto llega sin ningún tipo de anotación, lo primero que se hace es identificar las palabras que conforman mi documento. De esta manera puede hacerse una representación matemática del documento. Después pueden usarse diversas técnicas para buscar, por palabras, la información precisa de lo que se está buscando. Es decir, para las tareas de extracción de información es fundamental saber el tipo de información que se busca. Si además de conocer el tipo se conoce como suele estructurarse ese fragmento específico de información el trabajo se facilita.

Si el texto que se utiliza para extraer información tiene algún tipo de anotaciones, por ejemplo etiquetas de HTML o XML, el procesamiento inicia por entender la estructuración original del documento. Después de haber tomado toda la meta-información  posible de las etiquetas, estas se dejan de tomar en consideración. Pero debido a que el texto ya se encuentra fragmentado de una manera semi-estructurada, la detección y extracción de los fragmentos de información requeridos puede facilitarse mucho.

PeriódicoPor ejemplo, si se busca dentro de una nota periodística las personas que aparecen en ella, primero se deben buscar todas aquellas palabras que sean reconocidas como nombres y después de todas estas identificar únicamente las que corresponden a nombres de personas. De esta manera se puede conocer los nombres de las personas que aparecen en esa nota periodística.

En la siguiente entrada del blog se explicará como continúa este proceso y se darán algunos ejemplos de cómo se puede utilizar esta información.

Anuncios