Qué es el TF-IDF y cómo mejora la semántica

En este artículo voy a explicarte qué es el TF-IDF siendo prácticos, es decir, comprendiendo la importancia de las palabras de coocurrencia y el peso real que deben tener en tus artículos para no caer en el keyword staffing.

¿Buscas una herramienta SEO buena, bonita y barata?

Aquí te dejo mi reseña de SE Ranking y un cupón para que puedas probarla GRATIS.

Se ranking

Lo que aprenderás aquí

¿Qué es el TF IDF?

TF-IDF son las siglas de Term Frequency – Inverse Document Frequency. En otras palabras, es una forma de ponerle un número a qué tan importante es una palabra dentro de un texto cuando la comparas con muchos otros textos sobre el mismo tema.

¿No lo comprendes? No te preocupes, que lo vamos a ver mejor.

Ejemplo de TF IDF
Imagina que escribes un artículo sobre “receta de hummus”, probablemente en tu texto uses muchas veces palabras como "garbanzos", "tahini", "sabor" o "aceite".

Pues bien, esas palabras (llamadas palabras de coocurrencia) aparecen también en la mayoría de artículos que están en el top de Google para “receta de hummus” y con una frecuencia o peso alta.

que es el tfidf

También es cierto que aparecen palabras como "el", "la" o "hacer", pero es que estas palabras salen en cualquier texto cocina, ya te hable de hummus, de tortilla o de bizcocho.

Así pues, lo que hace el TF-IDF es darle más importancia a palabras como "tahini" (que aparecen mucho en textos de hummus, pero no en todos los textos del mundo) y casi ninguna importancia a palabras genéricas como el o hacer.

Resumiendo el TF IDF aplicado al SEO:

  • El TF mira cuánto usas un término dentro de tu página,
  • El IDF mira si ese término también se usa en todas las demás… o es algo más específico de esa intención de búsqueda.

Qué es el TF

El TF viene de Term Frequency o “frecuencia del término”. Siendo claros: mide cuántas veces aparece una palabra dentro de un texto en relación al total de palabras de ese texto. Es decir, si una palabra sale 20 veces en un artículo de 1.000 palabras, su TF sería 20/1000 = 0,02.

👉 Cuanto más se repite una palabra en ese contenido concreto, más alto será su TF.

Llevado al SEO
El TF te dice qué términos tienen más peso dentro de tu propio texto pero no mira Google, ni la competencia.

Qué es el IDF

El IDF viene de Inverse Document Frequency o “frecuencia inversa de documento”. Siendo claros: mide lo raro o lo común que es un término cuando miras muchos documentos a la vez, no solo el tuyo.

Y ojo que abajo, y bien recuadrado, te dejo el punto clave de todo el artículo.

La clave del TF IDF
Si una palabra aparece en casi todos los textos de un conjunto (por ejemplo, “receta”, “guía”, “blog”), su IDF es bajo, porque no aporta nada diferencial.

En cambio, si una palabra solo aparece en unos pocos documentos (por ejemplo, “tahini”, “crawl budget” o “link juice”), su IDF es alto, porque ayuda a identificar mejor de qué va ese contenido.

¿Cómo se calcula el TF-IDF?

De entrada quiero dejar muy claro que no necesitas saberte la fórmula de memoria ni hacer logaritmos: lo importante es quedarte con la idea de que TF-IDF te ayuda a entender qué vocabulario es realmente representativo de una temática frente a la típica “densidad de palabra clave” de toda la vida.

No obstante, como todos los competidores lo tienen vamos con ello y la fórmula es la siguiente:

formula tf idf

Y como no se entederá mucho, vamos a desarrollarlo un poco más, desde el inicio:

que es el tf idf

¿Sigues sin comprenderlo? No pasa nada, recuerda que con lo que te tienes que quedar es que el TF-IDF te ayuda a ver si tu contenido usa el vocabulario clave que realmente define una búsqueda, comparándolo con las páginas que ya están posicionando en Google.

Cuidado
Dicho esto, no te pases de la raya insistiendo en término de alta frecuencia porque entonces viene el keyword staffing. Lo vemos mejor en el siguiente punto.

TF-IDF vs densidad de palabra clave

La densidad de palabra clave y el TF-IDF hablan de lo mismo (palabras y frecuencia), pero juegan ligas distintas.

Por un lado, la densidad de palabra clave es la versión “old school” que mide cuántas veces aparece una keyword en tu texto y la divide entre el total de palabras. Si “tfidf” sale 20 veces en un texto de 1.000 palabras, tienes un 2 % de densidad.

Por otro lado, y como ya sabemos, el TF-IDF compara cómo usas los términos frente a muchos otros contenidos que hablan de lo mismo. Mira no solo que repitas una palabra, sino si esa palabra también aparece en todos los demás textos o si es más específica del tema.

Cuidado
El problema es que, la densidad de palabras clave solo te dice cuánto repites una palabra dentro de tu página, sin comparar con nada más. Eso lleva a dos errores clásicos: obsesionarse con un número de densidad y forzar la keyword hasta que el texto suena raro.

Que los errores técnicos no arruinen tus esfuerzos

screaming frog tutorial basico

Te enseño a auditar tu web con Screaming Frog, para que identifiques y soluciones los problemas que están afectando tu SEO.

¡Comienza mi curso de Screaming Frog gratis hoy!

Palabras de coocurrencia

Antes de ver las herramientas que nos permiten analizar el TF IDF vamos a ver un concepto que va de la mano con este tema pero que nadie menciona y me parece clave.

Palabras de Coocurrencia
Las palabras de coocurrencia son, básicamente, las palabras que suelen aparecer juntas cuando se habla de un mismo tema.

Por lo tanto, y volviendo a nuestro ejemplo, en una “receta de hummus”, las palabras de coocurrencia serían las que ya hemos visto (garbanzos, tahini, aceite de oliva) así como limón, comino, paprika, procesador de alimentos, etc.

Dichas palabras de coocurrencia no significan lo mismo y no tienen nada que ver con las keywords a posicionar, pero suelen ir juntas cuando alguien habla de hummus. Si analizas muchas recetas, vas a ver que esos términos se repiten una y otra vez en el mismo contexto: ahí es donde se ve la coocurrencia.

Es por ello que son el complemento perfecto de todo estudio de palabras clave.

¿Dónde entra el TF-IDF aquí?
Las palabras de coocurrencia, son las que aparecen de forma natural y repetida cuando se habla de un mismo tema al ser típicas de ese contexto mientras que el TF-IDF mide cuánto peso tienen de verdad en tu texto comparado con muchos otros.

Herramientas de TF IDF

Las mejores herramientas de SEO suelen contar con un módulo de TF-IDF que compara tu texto con otros muchos textos que ya están posicionando y analizar qué términos aparecen con más peso en unos y otros.

Actualmente, existen muchas SEO tools que nos ofrecen opciones para detectar el TF IDF, como Seolyze, Kiwosan o DinoRANK pero para mi la herramienta TF IDF de SEObility es la mejor opción si no te quieres rascar el bosillo porque es gratis.

TF IDF de SEObility

La herramienta TF IDF de SEObility nos permite hacer 3 usos diarios de este módulo para obtener tanto las palabras de coocurrencia como la frecuencia con la que aparecen.

herramienta tfidf seobility

Su uso es muy sencillo, solo tienes que incluir el término, tu URL (o no) y el país para obtener los valores. Tras ello obtendrás un diagrama y tabla (es la pestaña de Values) con los términos de coocurrencia y el peso que tienen.

como calcular el tf idf

(Así mismo, puedes hacer uso de Chat GPT o Gemini para preguntarle por los términos de coocurrencia. No es tan exacto pero hace bien la función.)

Aprovecho para comentar aquí que yo no me vuelvo loco con los pesos, simplemente me centro en los término e intento que aparezcan de manera natural en el texto.

Sin más, me retiro por hoy. Espero que te haya sido de utilidad el artículo y ahora comprendas mejor este concepto.

Sergio Canales SEO

Si has llegado hasta aquí… ¡Apúntate a mi Newsletter y sigue aprendiendo cada semana sobre SEO!

Sergio Canales

Ingeniero industrial y amante del SEO para nichos. Me encanta crear proyectos, posicionarlos y monetizarlos. Puedes saber más aquí sobre mi.

Subir