Existen distintos enfoques para vectorizar textos, desde los más simples hasta los más sofisticados:
Método
¿Cómo funciona?
Pros
Contras
Bag of Words
Cuenta frecuencia de palabras
Simple, rápido
Ignora el orden y el contexto
TF-IDF
Pondera palabras por frecuencia y relevancia
Mejora BoW, reduce ruido
Aún ignora el significado
Embeddings
Mapeo semántico en espacios densos
Captura relaciones de significado
Requiere más recursos y entrenamiento
Frecuencia Inversa de un documento (IDF)
TF-IDF
La estadística tf-idf tiene como objetivo medir la importancia de una palabra para un documento de una colección (o corpus) de documentos, por ejemplo, para una novela de una colección de novelas o para un sitio web de una colección de sitios web.
\[
[\text{idf}(término) = \ln \left( \frac{n_{\text{documentos}}}{n_{\text{documentos que contienen el término}}} \right)]
\]
¿Cuáles son las palabras más usadas?
Vamos a analizar las letras de los 10 compositores de tango con más canciones
la ley de Zipf establece que cuando las palabras de un texto lo suficientemente extenso se alinean en orden de frecuencia decreciente, exhiben un patrón especial.
En concreto, la segunda palabra más frecuente aparece aproximadamente la mitad de veces que la número uno. La tercera palabra más frecuente aparece aproximadamente un tercio más que la primera, la cuarta una cuarta parte y así sucesivamente
TF-IDF
La idea de tf-idf es encontrar las palabras importantes para el contenido de cada documento, disminuyendo la ponderación de las palabras de uso común y aumentando la de las palabras poco utilizadas en una colección o corpus de documentos
INFO [12:17:34.135] epoch 1, loss 0.1783
INFO [12:17:34.195] epoch 2, loss 0.1024
INFO [12:17:34.238] epoch 3, loss 0.0855
INFO [12:17:34.281] epoch 4, loss 0.0743
INFO [12:17:34.318] epoch 5, loss 0.0660
INFO [12:17:34.356] epoch 6, loss 0.0598
INFO [12:17:34.395] epoch 7, loss 0.0548
INFO [12:17:34.434] epoch 8, loss 0.0508
INFO [12:17:34.471] epoch 9, loss 0.0475
INFO [12:17:34.509] epoch 10, loss 0.0446
INFO [12:17:34.546] epoch 11, loss 0.0422
INFO [12:17:34.586] epoch 12, loss 0.0401
INFO [12:17:34.625] epoch 13, loss 0.0382
INFO [12:17:34.663] epoch 14, loss 0.0366
INFO [12:17:34.700] epoch 15, loss 0.0351
INFO [12:17:34.739] epoch 16, loss 0.0338
INFO [12:17:34.777] epoch 17, loss 0.0327
INFO [12:17:34.816] epoch 18, loss 0.0316
INFO [12:17:34.854] epoch 19, loss 0.0306
INFO [12:17:34.893] epoch 20, loss 0.0298
amor corazon dia dolor vida lado camino sueño
1.0000000 0.7226983 0.6542862 0.6520943 0.6458425 0.6133125 0.6022170 0.5977714
querer y
0.5904431 0.5844952