Taller de Investigación: Minería de texto para la investigación social

Herramientas

¿Por qué usamos R?

  • Es un software libre. Es gratuito (no requiere licencias)
  • R tiene una amplia comunidad y recursos disponibles
  • Tiene un IDE (Integrated development enviroment) amigable que facilita el trabajo
  • Flexible y customizable

Modalidad de las clases

  • Teorico

  • Práctico

Aprobación de la materia

  • 🙋‍♀️75% de asistencia a clase
  • 💻Realización de actividades prácticas
  • 📎Aprobación del trabajo/proyecto final

Trabajo final

Dos entregas obligatorias:

  1. Presentación del proyecto de investigación
  2. Informe final con resultados

¿Dudas? ¿Consultas?

💫 Text Mining 💫

Es el proceso de analizar colecciones de corpus textuales con el fin de capturar conceptos y temas clave, descubrir relaciones y tendencias ocultas 

Text mining vs data mining

Números vs texto

¿Cuál es el principal problema del texto?

¿Estructura? A donde vamos no necesitamos estructura

1° diferencia entre data y text mining: números vs texto

  • 📊 Superficialmente, los datos son números o texto.
  • 📄 El texto suele ser un conjunto no estructurado de documentos sin requisitos específicos para su composición.

2° diferencia: estructura

Datos estructurados

Datos NO estructurados

En la minería de datos (data mining)

  • 🔍 La mayoría de las aplicaciones de minería de datos requieren información estructurada.

  • ➡️ Los datos deben prepararse adecuadamente o diseñarse cuidadosamente para su extracción.

¿Cuáles son los tipos de variables?

¿Qué esperamos usualmente en los análisis cualitativos?

  • Variables numéricas ordenados: Permiten comparaciones (“mayor que” o “menor que”). Ejemplo: peso, ingresos.

  • Variables categóricos: Códigos numéricos no ordenados con una definición establecida. Ejemplo: Sexo (0 = Femenino, 1 = Masculino).

Para la minería de datos los datos deben presentarse de forma muy organizada

Si los datos pueden describirse en formato tabular, entonces el problema está muy estructurado

Paciente Presión arterial Peso Código enfermedad
1 14/60 65 1
2 90/60 70 2
3 16/11 89 3
4 97/57 101 4

¿El texto es diferente a los números?

Del texto a la hoja de calculo


Diferencias con los valores numéricos clásicos

  • El modelo tabular es limitado
  • Todos los valores son positivos
  • No existen los valores perdidos

¿Qué haremos?

¿Qué haremos?

  • Clasificación de documentos: Asignación de categorías a textos.

  • Recuperación de información: Búsqueda eficiente de documentos relevantes.

  • Clustering: Agrupación de textos similares sin etiquetas predefinidas.

  • Extracción de información: Identificación de entidades y relaciones.

Lo primero es

  • Tokenización: División de texto en palabras o frases clave.

  • Lemmatización y stemming: Reducción de palabras a su forma base.

  • Representación vectorial: Bag of Words (BoW), TF-IDF, embeddings.

🕒 Recreo de 10 min 🕝

Vamos a R