Sobrecarga de información o entre más, ¿mejor?

Deja un comentario

Sobrecarga de InformaciónYa hemos hablado sobre la recuperación y la extracción de información, sin embargo no sé si queda claro porque este tipo de sistemas se vuelven necesarios. Es decir, suena lógico que deba existir una forma en la que alguien que busca información la pueda encontrar, de la misma manera se pueda determinar en que documentos se encuentran. Pero ¿por que es necesario un sistema digital que haga lo que los bibliotecarios y archivistas han hecho toda la vida?

El problema que existe es que desde que inició la web, la gente empezó a generar contenido. Antiguamente este contenido era principalmente texto y era estático, de esta manera obedecía los estándares del HTML. Originalmente la web era sólo para algunos cuantos que podían encontrar acceso a internet y que entendían, aunque fuera un poco, como se generaban los hipertextos.

Conforme los precios de internet y las computadoras fueron bajando, más gente tuvo acceso a la web, lo que resultó no sólo en una mayor distribución de las páginas estáticas, sino también en una generación mayor de estas.

Como cada vez eran más personas que generaban páginas, cada vez existía mayor información y cada vez era más difícil encontrar lo que se buscaba, aunque bastaba con usar palabras clave y registrarse manualmente en un motor de búsqueda para quedar indizado.

Logo de WordPress

En poco tiempo la gente creaba y consumía información constantemente, surgieron web logs y después logs de fotos e incluso de vídeo, los estándares tuvieron que cambiar para adaptarse a estas nuevas necesidades. Esto trajo el surgimiento de la web 2.0, que como hemos visto es una web dinámica, que cambia constantemente.

Esta web 2.0 se basa en los usuarios de la misma. Se han generado sitios dedicados a almacenar y administrar blogs, han aumentado las redes sociales y en cambio han desaparecido o se han transformado sitios que estaban dedicados a la generación de las antiguas páginas estáticas.

Esto trae como resultado un exceso de información. De hecho la información contenida en las páginas de internet es tanta que ningún ser humano podría leerla toda en toda su vida, aunque la web no creciera más, algo que como se ha visto, resulta inevitable.

En esta nueva web, la información cambia cada segundo, por lo que los sistemas de recuperación de información deben adaptarse a estos cambios tan dinámicos. Esta adaptación es difícil, porque ahora, gracias al incremento de la participación del usuario, la información que se transmite suele ser más significativa.

Logo de WikipediaAhora cada vez encontramos una mayor cantidad de información subjetiva que se distribuye en muchos sitios. Incluso la información objetiva que se comparte se rebate con fines de que sea más precisa.

Los nuevos sistemas tiene que tener en cuenta esta sobrecarga de información y hacer lo posible por ser cada vez más rápidos, más exactos y más precisos. Es decir, cada día tiene más paja el pajar donde se trata de buscar la aguja exacta.

Recuperación de información

1 comentario

La recuperación de la información es una de las disciplinas más antiguas dentro de las tecnologías de la información. Se enfoca en dirigir al usuario hacia la información almacenada en diversos medios.

La información puede encontrarse almacenada en múltiples bases y formatos. Es decir, la información puede encontrarse dentro de texto, imágenes, audio, objetos, números, etc. Por lo que para fines de este curso se asumirá que se busca información dentro de documentos textuales, sin embargo es bueno notar que no es la única forma en la que se puede encontrar almacenada la información.

Los humanos recibimos, almacenamos y generamos información de múltiples maneras. La transferimos también de diversas formas, pero la más común de ellas es a través de la comunicación.

Para que la comunicación sea exitosa se necesita un emisor, un receptor, un código y un mensaje. El mensaje se transmite a través de un canal u se realiza en un contexto. También es necesario que el emisor y el receptor sean capaces de interpretar el mismo código, es decir, existe un codificador y un decodificador.

En 1950, Calvin N. Mooers establecía que la recuperación de información consistía en dirigir al usuario hacia la información almacenada, alguna de la cuál podría ser desconocida para aquél. También asegura que el receptor es la parte activa de la comunicación, y que esta comunicación es temporal  de una época a otra y sin ruido en el canal. Para él, esta comunicación es siempre unidireccional, pues el emisor no puede saber el mensaje particular que será de utilidad posterior para el receptor, por lo mismo debe enviar tantos mensajes como le sean posibles. Debido a esto, el reto técnico es hallar TODOS los mensajes que sean RELEVANTES para el receptor en el menor tiempo posible.

Es bueno recordar que estas definiciones y suposiciones fueron hechas en 1950 y sin embargo gran parte de esta información continúa siendo relevante. También es importante notar que un buen sistema de recuperación de información debe encontrar todos los mensajes que sean relevantes, pero también sólo los mensajes que sean relevantes.

Es decir, un sistema que trajera todos los documentos existentes en internet dado que yo busqué un término sería un sistema completamente ineficiente, ya que si bien trajo todos los mensajes relevantes, también trajo muchos irrelevantes, de hecho la mayoría lo sería.

Para ejemplificar, imaginemos dos situaciones:

En la primera situación supongamos que el usuario “U” busca diversos libros sobre el tema “T”. Para encontrar ese libro, U entra en una librería y le pregunta al vendedor: “¿Dónde puedo encontrar libros acerca de T?” a lo que el vendedor responde: “Justo en esta librería”.

En la segunda situación U el vendedor, que tiene organizados sus libros de acuerdo a un método que sólo es conocido para él, amablemente busca entre todos sus libros. Después de un momento de reflexión y búsqueda regresa con sólo un libro sobre T y se lo entrega a U. U descubre que ese libro es acerca de lo que busca, sin embargo no es Todo lo que busca.

En estos dos ejemplos el vendedor de libros resultó ser un sistema de recuperación de información bastante ineficiente porque no ayudó a U a encontrar todo lo que buscaba.

Actualmente la entrada más común para encontrar información en internet es a través de los llamados buscadores o motores de búsqueda, estos son los sistemas de información más comunes, sin embargo no son los únicos. ¿Conoce algún otro?

Google       yahoo    bing