Extracción de información I

1 comentario

La extracción de información es una particularidad de la recuperación de información. Mientras que esta trata de traer todos los documentos relevantes, pero sólo los relevantes, aquella busca encontrar los fragmentos en los que se encuentra específicamente la información.

Mientras que extraer una información particular en una base de datos bien estructurada y organizada no conlleva mucho esfuerzo, encontrar esta información en documentos textuales, visuales o auditivos representa un reto mayor. Esto se debe a que este tipo de documentos, si bien pueden ser leídos por una computadora, se encuentran completamente no estructurados o, con suerte, semi-estructurados.

Extracción De InformaciónEs decir, la meta de esta disciplina es encontrar información precisa y estructurada en documentos que carecen de estructura digital completa o parcialmente. Históricamente esta disciplina se ha enfocado al texto, que si bien tienen una estructura interna, esta no está diseñada para los estándares de bases de datos.

Debido a que el problema es muy grande, la extracción de información se hace comúnmente en dominios de especialidad y no generales, por ejemplo la extracción de datos sobre fluctuaciones del clima en las noticias meteorológicas.

A diferencia de otras aplicaciones del procesamiento de lenguaje natural, como el resumen automático por ejemplo, la extracción de información puede evaluarse automática y objetivamente. También las aplicaciones existentes para este tipo de sistemas pueden ser muy variadas, incluido otros sistemas de PLN.

Como durante este curso vamos a trabajar con texto, a continuación se explicará brevemente el tratamiento que se le suele dar a estos con el fin de obtener la información específica contenidos en ellos.

Estructuración del texto

Como se ha dicho anteriormente, se toma el texto que puede ser completamente plano o con diferentes tipos de anotaciones. Cuando el texto llega sin ningún tipo de anotación, lo primero que se hace es identificar las palabras que conforman mi documento. De esta manera puede hacerse una representación matemática del documento. Después pueden usarse diversas técnicas para buscar, por palabras, la información precisa de lo que se está buscando. Es decir, para las tareas de extracción de información es fundamental saber el tipo de información que se busca. Si además de conocer el tipo se conoce como suele estructurarse ese fragmento específico de información el trabajo se facilita.

Si el texto que se utiliza para extraer información tiene algún tipo de anotaciones, por ejemplo etiquetas de HTML o XML, el procesamiento inicia por entender la estructuración original del documento. Después de haber tomado toda la meta-información  posible de las etiquetas, estas se dejan de tomar en consideración. Pero debido a que el texto ya se encuentra fragmentado de una manera semi-estructurada, la detección y extracción de los fragmentos de información requeridos puede facilitarse mucho.

PeriódicoPor ejemplo, si se busca dentro de una nota periodística las personas que aparecen en ella, primero se deben buscar todas aquellas palabras que sean reconocidas como nombres y después de todas estas identificar únicamente las que corresponden a nombres de personas. De esta manera se puede conocer los nombres de las personas que aparecen en esa nota periodística.

En la siguiente entrada del blog se explicará como continúa este proceso y se darán algunos ejemplos de cómo se puede utilizar esta información.

Anuncios

Recuperación de información

1 comentario

La recuperación de la información es una de las disciplinas más antiguas dentro de las tecnologías de la información. Se enfoca en dirigir al usuario hacia la información almacenada en diversos medios.

La información puede encontrarse almacenada en múltiples bases y formatos. Es decir, la información puede encontrarse dentro de texto, imágenes, audio, objetos, números, etc. Por lo que para fines de este curso se asumirá que se busca información dentro de documentos textuales, sin embargo es bueno notar que no es la única forma en la que se puede encontrar almacenada la información.

Los humanos recibimos, almacenamos y generamos información de múltiples maneras. La transferimos también de diversas formas, pero la más común de ellas es a través de la comunicación.

Para que la comunicación sea exitosa se necesita un emisor, un receptor, un código y un mensaje. El mensaje se transmite a través de un canal u se realiza en un contexto. También es necesario que el emisor y el receptor sean capaces de interpretar el mismo código, es decir, existe un codificador y un decodificador.

En 1950, Calvin N. Mooers establecía que la recuperación de información consistía en dirigir al usuario hacia la información almacenada, alguna de la cuál podría ser desconocida para aquél. También asegura que el receptor es la parte activa de la comunicación, y que esta comunicación es temporal  de una época a otra y sin ruido en el canal. Para él, esta comunicación es siempre unidireccional, pues el emisor no puede saber el mensaje particular que será de utilidad posterior para el receptor, por lo mismo debe enviar tantos mensajes como le sean posibles. Debido a esto, el reto técnico es hallar TODOS los mensajes que sean RELEVANTES para el receptor en el menor tiempo posible.

Es bueno recordar que estas definiciones y suposiciones fueron hechas en 1950 y sin embargo gran parte de esta información continúa siendo relevante. También es importante notar que un buen sistema de recuperación de información debe encontrar todos los mensajes que sean relevantes, pero también sólo los mensajes que sean relevantes.

Es decir, un sistema que trajera todos los documentos existentes en internet dado que yo busqué un término sería un sistema completamente ineficiente, ya que si bien trajo todos los mensajes relevantes, también trajo muchos irrelevantes, de hecho la mayoría lo sería.

Para ejemplificar, imaginemos dos situaciones:

En la primera situación supongamos que el usuario “U” busca diversos libros sobre el tema “T”. Para encontrar ese libro, U entra en una librería y le pregunta al vendedor: “¿Dónde puedo encontrar libros acerca de T?” a lo que el vendedor responde: “Justo en esta librería”.

En la segunda situación U el vendedor, que tiene organizados sus libros de acuerdo a un método que sólo es conocido para él, amablemente busca entre todos sus libros. Después de un momento de reflexión y búsqueda regresa con sólo un libro sobre T y se lo entrega a U. U descubre que ese libro es acerca de lo que busca, sin embargo no es Todo lo que busca.

En estos dos ejemplos el vendedor de libros resultó ser un sistema de recuperación de información bastante ineficiente porque no ayudó a U a encontrar todo lo que buscaba.

Actualmente la entrada más común para encontrar información en internet es a través de los llamados buscadores o motores de búsqueda, estos son los sistemas de información más comunes, sin embargo no son los únicos. ¿Conoce algún otro?

Google       yahoo    bing

Presentación

1 comentario

Gracias a la evolución de la web, desde sus orígenes hasta su estado actual, usuarios de todo el mundo han podido crear diversos tipos de contenidos que han ido subiendo a servidores personales o públicos, gratuitos o de paga. Estos contenidos han generado una cantidad de información disponible como nunca antes se había tenido. Esto ha motivado la necesidad de cambiar los modelos de búsqueda existentes hasta ahora.

Cada vez es más evidente que la información está relacionada entre sí de diversas manera, la misma web lo demuestra y cambia su estándar hacia ese nuevo modelo lleno de significado y relaciones. Esto es lo que se ha denominado la web semántica, que, junto con los medios sociales, la infraestructura existente y la amplia participación de los usuarios como creadores de nueva información están abriendo paso, cada vez con mayor velocidad a la prometida web 3.0.

¿Qué hay en esa web 3.0? Dentro de esa web se encuentra información relacionada entre sí, con significado tanto para las personas como para las máquinas que son capaces de comunicarse. Una computadora podrá ser capaz de reconocer los objetos existentes dentro de una fotografía y buscar información acerca de los mismos, enviar esa información a un teléfono celular y aumentar la realidad.

Este nuevo paradigma de información creará nuevas necesidades de búsqueda, recuperación y extracción de información. Esto se debe a que ahora será posible buscar alguna instancia de una entidad, responder preguntas con mayor grado de complejidad y generar abstracciones de una realidad representada en algún tipo de medio, ya sea texto, imagen estática, imágenes en movimiento (videos, películas, animaciones, etc.), o la mezcla de todo.

El objetivo de este curso es descubrir que son y como funcionan los dispositivos encargados de recuperar esta información, los llamados buscadores semánticos. Debido a la complejidad del tema, el curso sólo se basará en el tratamiento del lenguaje natural expresado en texto. A partir de esto se revisarán las diferencias entre este tipo de nuevas tecnologías y las tecnologías utilizadas hasta ahora.

Para alcanzar este objetivo, primero es necesario entender que es la recuperación y extracción de información. Como se realizan los reconocimientos de patrones en el texto y como se desarrollan las ontologías.

Esto permitirá conocer una parte más próxima de la llamada web semántica o web 3.0. También acercará al conocimiento de los llamados metalenguajes utilizados con el fin de entender las relaciones existentes entre las palabras.

Después de esto será posible conocer cuáles son los diferentes estándares utilizados para la organización y presentación de la información de manera semántica.

Al momento de revisar las ontologías será necesario entender las diferentes relaciones que existen entre las palabras, con el fin de comprender como es que un significado se transforma en texto.

Esto permitirá comprender a mayor profundidad los problemas generados por la semántica de la lengua. Se deberá comprender estos problemas para poder proponer soluciones a los mismos. Problemas como ambigüedad de palabras, cambios de dominios y estructuración de redes de significado serán tratados.

Finalmente, con todo ese conocimiento se entenderán las dos formas principales en las que funcionan esos buscadores, es decir o las computadoras “aprenden” los diferentes significados, o adquieren ese conocimiento a través de la “enseñanza” de los expertos humanos. También se deberán discutir cuáles son las ventajas y los retos de cada una de esas soluciones.