Dentro de la clase de hoy (31 de enero de 2014), hicimos un examen de diagnóstico que contenía las siguientes preguntas:

  1. ¿Qué es un token?
  2. ¿Qué es una “Bolsa de palabras”?
  3. ¿Qué es TFIDF?
  4. ¿Cuál es la fórmula para calcular TFIDF?
  5. ¿Qué es precisión, recall, y exactitud?
  6. ¿Qué algoritmos de clasificación conoces?
  7. ¿Cuál es la diferencia entre clustering y clasificación?
  8. ¿Cómo funciona un motor de búsqueda tradicional?
  9. Si tuviera 1000+ entradas de blogs y quisiera agrupar los que más se parecen, ¿cómo lo haría?
  10. Si quisiera separarlos en “Moda”, “Techies”, “Política”, ¿cómo lo haría?

Este examen tenía trampa. Muchas de esas preguntas no tienen una respuesta válida correcta, sino varias. La idea era comprobar el nivel de conocimientos e intuición que tienen los estudiantes inscritos.
Sin embargo hay algunas respuestas que me gustaría encontrar, estas las pondré en una publicación siguiente.

Después del examen, vimos una brevísima introducción al tema de Análisis y procesamiento inteligente de textos. Discutimos las razones por las que es importante utilizar una computadora que auxilie en la lectura, procesamiento y análisis de grandes volúmenes de información documental. Entre las conlusiones a las que se llegó se encuentran:

  • Existe conocimiento que no es evidente para los humanos. Este conocimiento se puede encontrar esparcido a través de diferentes fuentes. Una computadora puede encontrar los vínculos entre diferentes extractos de información para descubrir el conocimiento. Un humano debe analizar ese conocimiento para determinar si es válido.
  • La cantidad de información documentada y que se genera diariamente no permite que se analice manualmente. Una computadora puede leer mucho más rápido que un ser humano aunque no pueda “entender” humanamente un texto. Sin embargo puede “aprender” un proceso de razonamiento mecánico.
  • A través de procesos de razonamiento mecánico, la computadora es capaz de determinar las diferentes categorías a las que puede pertenecer un texto. También puede clasificar si los textos contienen opiniones dentro de ellos. Puede determinar la polaridad de dichas opiniones. Esto último se llama minería de opiniones.
  • El análisis automático de textos auxilia en las tareas de inteligencia empresarial y militar. Es posible analizar mensajes con fines de encontrar patrones ocultos.
  • Las dificultades para realizar estos análisis son inmensas. Las diferentes lenguas humanas son muy dinámicas. El lenguaje natural es ambiguo por naturaleza. El contexto puede cambiar el significado de una frase. Las palabras tienen significado en sí mismas. Los humanos somos capaces de entender una paradoja, una computadora no. Ejemplo: “Esta aseveración es falsa”.

Se introdujo el tema de reglas de asociación. Se definió lo que se iba a entender por soporte (support) y confianza (confidence).

  • Soporte es la frecuencia con la que ocurre un conjunto de items (términos) en un conjunto de transacciones.
  • Confianza es la frecuencia con la que ocurre un término condicionado a que ocurra antes otro.

Sin describir explícitamente el algoritmo “A priori”, se hizo una ejecución del mismo con unos datos inventados.

Pendientes para la siguiente clase:

  • Definir el algoritmo “A priori”
  • Explicar cada uno de sus pasos
  • Hacer énfasis en la subrutina de generación de candidatos
  • Entregar el plan de semestre definitivo, con fechas de tareas y entregas de trabajo

Aunque esta es una entrada de diario personal queda pública por si alguien encuentra algo de utilidad o quisiera hacer un comentario sobre lo que se dice aquí.

Elige entre las etiquetas más utilizadas

Anuncios