Sobrecarga de información o entre más, ¿mejor?

Deja un comentario

Sobrecarga de InformaciónYa hemos hablado sobre la recuperación y la extracción de información, sin embargo no sé si queda claro porque este tipo de sistemas se vuelven necesarios. Es decir, suena lógico que deba existir una forma en la que alguien que busca información la pueda encontrar, de la misma manera se pueda determinar en que documentos se encuentran. Pero ¿por que es necesario un sistema digital que haga lo que los bibliotecarios y archivistas han hecho toda la vida?

El problema que existe es que desde que inició la web, la gente empezó a generar contenido. Antiguamente este contenido era principalmente texto y era estático, de esta manera obedecía los estándares del HTML. Originalmente la web era sólo para algunos cuantos que podían encontrar acceso a internet y que entendían, aunque fuera un poco, como se generaban los hipertextos.

Conforme los precios de internet y las computadoras fueron bajando, más gente tuvo acceso a la web, lo que resultó no sólo en una mayor distribución de las páginas estáticas, sino también en una generación mayor de estas.

Como cada vez eran más personas que generaban páginas, cada vez existía mayor información y cada vez era más difícil encontrar lo que se buscaba, aunque bastaba con usar palabras clave y registrarse manualmente en un motor de búsqueda para quedar indizado.

Logo de WordPress

En poco tiempo la gente creaba y consumía información constantemente, surgieron web logs y después logs de fotos e incluso de vídeo, los estándares tuvieron que cambiar para adaptarse a estas nuevas necesidades. Esto trajo el surgimiento de la web 2.0, que como hemos visto es una web dinámica, que cambia constantemente.

Esta web 2.0 se basa en los usuarios de la misma. Se han generado sitios dedicados a almacenar y administrar blogs, han aumentado las redes sociales y en cambio han desaparecido o se han transformado sitios que estaban dedicados a la generación de las antiguas páginas estáticas.

Esto trae como resultado un exceso de información. De hecho la información contenida en las páginas de internet es tanta que ningún ser humano podría leerla toda en toda su vida, aunque la web no creciera más, algo que como se ha visto, resulta inevitable.

En esta nueva web, la información cambia cada segundo, por lo que los sistemas de recuperación de información deben adaptarse a estos cambios tan dinámicos. Esta adaptación es difícil, porque ahora, gracias al incremento de la participación del usuario, la información que se transmite suele ser más significativa.

Logo de WikipediaAhora cada vez encontramos una mayor cantidad de información subjetiva que se distribuye en muchos sitios. Incluso la información objetiva que se comparte se rebate con fines de que sea más precisa.

Los nuevos sistemas tiene que tener en cuenta esta sobrecarga de información y hacer lo posible por ser cada vez más rápidos, más exactos y más precisos. Es decir, cada día tiene más paja el pajar donde se trata de buscar la aguja exacta.

Anuncios

Extracción de Información II

Deja un comentario

En la entrada anterior había explicado qué era la extracción de información y como se iniciaba el proceso para extraer información de un texto completamente sin estructura y uno semi estructurado.

Había usado el ejemplo de extracción de nombres de personas en una nota periodística que, por cierto, es una operación común y requerida por diversos medios de comunicación y otros sistemas relacionados con las tecnologías del lenguaje. El proceso había llegado a detectar y extraer de manera exitosa los nombres.

Una vez extraídos estos nombres se colocan en una plantilla donde existe una lugar específico para nombres. Esta plantilla debe contener todos los campos requeridos para el proceso de extracción de información. Es decir, si además de los nombres me interesa extraer fechas y lugares de esas notas periodísticas, mi plantilla debe contener un campo específico para nombres de lugares y fechas encontradas. De esta manera puedo estructurar la información existente dentro de los documentos analizados.

Arquitectura de E de I

La plantilla con los campos

El diseño de esta plantilla tampoco puede ser un proceso trivial. Se requiere de una decisión específica sobre el tipo de información que se requiere extraer en determinados documentos. La evaluación del éxito o fracaso del sistema de extracción de información depende en gran medida del diseño de la plantilla que debe llenarse. Estas plantillas deben representar la necesidad de información. Es decir deben contener todos los campos que sean de interés, pero sólo los campos que sean de interés. En otras palabras, una plantilla con menos campos de los requeridos dará como resultado una extracción de información que será insuficiente, mientras que una plantilla con más campos de los necesarios tendrá como resultado datos cuya extracción resulta costosa e inútil.

Como puede intuirse, los campos representados en esta plantilla son los que se utilizarán para poblar una base de datos tradicional, de esta manera la información queda estructurada para facilitar su utilización por otros sistemas.

Aplicaciones

Los sistemas que utilicen esta información pueden ser de diferente índole. Por ejemplo, los sistemas de resumen automático pueden utilizar la información para el entendimiento del texto la generación de resumen, los sistemas de pregunta-respuesta pueden usar la información estructurada para devolver una respuesta precisa a una pregunta determinada, los sistemas de traducción automática pueden usar esta información para decidir como traducir determinados fragmentos textuales o incluso no traducir nombres de personas, empresas etc.

Metadatos

Los campos de esta plantilla están otorgando información sobre el tipo de dato que contienen, si esta información se hace explícita forman metadatos. Algo muy interesante de estos, es que también pueden interpretarse como datos que contienen información muy especial y que será de mucha utilidad al momento de desarrollar motores de búsqueda semánticos. Esta información es la que se podría denominar información semántica en el campo de la búsqueda, recuperación y extracción de información.

La llamamos semántica porque contiene el significado específico de nuestros datos, nos define que un nombre siempre será una cadena de caracteres, e incluso se pude pensar que está en representación de una entidad anclada en el mundo real. También podemos saber que una fecha es una entidad de representación de tiempo y que en diferentes lenguas o culturas tiene diferentes formas de expresarse.

Conocer la semántica de nuestros datos permite recuperar mayor cantidad de información relevante con mayor exactitud.

Extracción de información I

1 comentario

La extracción de información es una particularidad de la recuperación de información. Mientras que esta trata de traer todos los documentos relevantes, pero sólo los relevantes, aquella busca encontrar los fragmentos en los que se encuentra específicamente la información.

Mientras que extraer una información particular en una base de datos bien estructurada y organizada no conlleva mucho esfuerzo, encontrar esta información en documentos textuales, visuales o auditivos representa un reto mayor. Esto se debe a que este tipo de documentos, si bien pueden ser leídos por una computadora, se encuentran completamente no estructurados o, con suerte, semi-estructurados.

Extracción De InformaciónEs decir, la meta de esta disciplina es encontrar información precisa y estructurada en documentos que carecen de estructura digital completa o parcialmente. Históricamente esta disciplina se ha enfocado al texto, que si bien tienen una estructura interna, esta no está diseñada para los estándares de bases de datos.

Debido a que el problema es muy grande, la extracción de información se hace comúnmente en dominios de especialidad y no generales, por ejemplo la extracción de datos sobre fluctuaciones del clima en las noticias meteorológicas.

A diferencia de otras aplicaciones del procesamiento de lenguaje natural, como el resumen automático por ejemplo, la extracción de información puede evaluarse automática y objetivamente. También las aplicaciones existentes para este tipo de sistemas pueden ser muy variadas, incluido otros sistemas de PLN.

Como durante este curso vamos a trabajar con texto, a continuación se explicará brevemente el tratamiento que se le suele dar a estos con el fin de obtener la información específica contenidos en ellos.

Estructuración del texto

Como se ha dicho anteriormente, se toma el texto que puede ser completamente plano o con diferentes tipos de anotaciones. Cuando el texto llega sin ningún tipo de anotación, lo primero que se hace es identificar las palabras que conforman mi documento. De esta manera puede hacerse una representación matemática del documento. Después pueden usarse diversas técnicas para buscar, por palabras, la información precisa de lo que se está buscando. Es decir, para las tareas de extracción de información es fundamental saber el tipo de información que se busca. Si además de conocer el tipo se conoce como suele estructurarse ese fragmento específico de información el trabajo se facilita.

Si el texto que se utiliza para extraer información tiene algún tipo de anotaciones, por ejemplo etiquetas de HTML o XML, el procesamiento inicia por entender la estructuración original del documento. Después de haber tomado toda la meta-información  posible de las etiquetas, estas se dejan de tomar en consideración. Pero debido a que el texto ya se encuentra fragmentado de una manera semi-estructurada, la detección y extracción de los fragmentos de información requeridos puede facilitarse mucho.

PeriódicoPor ejemplo, si se busca dentro de una nota periodística las personas que aparecen en ella, primero se deben buscar todas aquellas palabras que sean reconocidas como nombres y después de todas estas identificar únicamente las que corresponden a nombres de personas. De esta manera se puede conocer los nombres de las personas que aparecen en esa nota periodística.

En la siguiente entrada del blog se explicará como continúa este proceso y se darán algunos ejemplos de cómo se puede utilizar esta información.