Teorico
Práctico
Dos entregas obligatorias:
Es el proceso de analizar colecciones de corpus textuales con el fin de capturar conceptos y temas clave, descubrir relaciones y tendencias ocultas
Datos estructurados
Datos NO estructurados
🔍 La mayoría de las aplicaciones de minería de datos requieren información estructurada.
➡️ Los datos deben prepararse adecuadamente o diseñarse cuidadosamente para su extracción.
Variables numéricas ordenados: Permiten comparaciones (“mayor que” o “menor que”). Ejemplo: peso, ingresos.
Variables categóricos: Códigos numéricos no ordenados con una definición establecida. Ejemplo: Sexo (0 = Femenino, 1 = Masculino).
Paciente | Presión arterial | Peso | Código enfermedad |
---|---|---|---|
1 | 14/60 | 65 | 1 |
2 | 90/60 | 70 | 2 |
3 | 16/11 | 89 | 3 |
4 | 97/57 | 101 | 4 |
Clasificación de documentos: Asignación de categorías a textos.
Recuperación de información: Búsqueda eficiente de documentos relevantes.
Clustering: Agrupación de textos similares sin etiquetas predefinidas.
Extracción de información: Identificación de entidades y relaciones.
Tokenización: División de texto en palabras o frases clave.
Lemmatización y stemming: Reducción de palabras a su forma base.
Representación vectorial: Bag of Words (BoW), TF-IDF, embeddings.