Indexar en Google y la madre que los parió

Descubierta actualmente sin indexar. Un estado de Search Console que nos lleva de cabeza.

¿Qué debemos hacer si no se esta indexando tu web?

Es un error que se está generando en muchas páginas y te comento varios métodos para mejorar tu índice de cobertura y no morir en el intento.

Desde hace años en mis charlas utilizaba la analogía de que Google es como un traga perras.

Indexa todo con mucha facilidad sin que te des cuenta y por ello es relevante ser cuidadoso con tu estrategia de indexación.

Esa diapositiva la eliminé hace mucho tiempo, porque las cosas han cambiado.

Desde hace una temporada, estoy detectando en webs propias, de mis clientes y de cantidad de consultas que me suelo topar (en foros, soporte, Twitter, comunidades):

  • ¿Qué estoy haciendo mal?
  • ¿Por qué Google no me indexa?
  • Me sale un aviso en el reporte de cobertura de Search Console de: «Descubierta, pero no indexada» en sección de excluido.
  • ¿Rompí algo? ¿Fue en una actualización de plugins, de WordPress? (Esto lo vi en el soporte de WP).
  • Me hackearon la web y desde ese entonces Google no me indexa nada, etc.

Y la verdad es que es normal que las personas alejadas del mundo del SEO tengan esas dudas. Lo he visto en desarrolladores que llevan años en el mundo digital.

No se dedican a ello, han visto siempre sus contenidos indexados sin mucho problema y de repente, una perturbación en la fuerza, ¡y la madre que los parió!

Hago spoiler: «NO estás haciendo nada mal». A priori vamos. Pero hay que analizarlo.

Desde mi punto de vista Google no comunica estos problemas de forma clara, ello hace que se generen teorías, cuando en realidad, solo somos testigos de un posible «bug» o fallo técnico.

En muchas ocasiones, serán actualizaciones o cambios en su política de indexación.

Así que me pareció útil explicar el proceso, los casos que veo y posibles soluciones para este incordio, al que nos somete el todopoderoso buscador.

Pero primero vayamos al origen.

Google Spider según Wajari

¿Qué es la indexación en Google?

Los buscadores como Google se componen de 3 componentes esenciales:

  1. Un crawler o arañita que rastrea nuestra página web. En el caso de Google: Googlebot.
  2. Una base de datos. Esto es lo que podemos denominar como indexación, cuando llega una página web, Googlebot la rastrea y la incorpora a su base de datos para que esté disponible para búsquedas de personas. La mejor analogía: Como si fuera una bibliotecaria. Registra el libro (web) y su contenido (páginas) y lo introduce en su base de datos.
  3. Algoritmos. Organizan la información en base a relevancia y autoridad cuando una persona hace una búsqueda.

Es un proceso teóricamente simple y durante años había que tener mucho cuidado con el contenido que tenías en tu web, porque con mucha frecuencia se indexaban cosas que no querías, por ejemplo:

  • Avisos de cookies
  • Páginas de agradecimientos
  • Contenido lorem ipsum
  • Versiones en desarrollo de tu web que metías en subdominios, etc.

¿Cómo se controla la indexación?

Con los meta robots. Tal como lo conté en audio (y por escrito) en mi abandonado podcast (SEO para WP: Meta robots) y que me permito repetir parte de ese contenido en este post:

Los meta robots son una etiqueta en HTML que le da una instrucción a los motores de búsquedas.

Al igual que el archivo robots.txt, podemos bloquear a los motores de búsquedas, pero en el caso de los robot.txt, algunas directrices pueden ser ignoradas, sobre todo si una URL recibe un link externo y es detectada.

Las etiquetas de la cabecera suele ser la mejor forma de controlar el comportamiento de cada URL.

Como señala Fernando Maciá en su diccionario de marketing digital:

«La meta robots permite controlar la forma en que se debe indexar una página y la forma de mostrarla a los usuarios en la página de resultados de búsqueda.»

Fernando Maciá

Más claro, ni el agua.

Además, en el robots.txt bloqueamos por completo una URL, mientras que con los meta robots podemos tener una URL que sigue pasando zumo de links o popularidad, pero que decidimos que no aparezca en los índices de Google.

Meta robots

Sintaxis de la etiqueta meta robots

Muy sencilla: <meta name=’robots’ content=’el valor que queramos’> y estas son las opciones que podemos definir:

noindex, follow

<meta name="robots" content="noindex, follow"/>

En este caso con el noindex le decimos a buscadores NO indexes este contenido pero puedes seguir (follow) los enlaces.

Al seguir los enlaces mantenemos la transferencia de links y zumo de popularidad asociado.

Es la solución más típica cuando quieres evitar que se indexe una URL que puede ser considerada como contenido débil (thin content) o contenido duplicado de otras secciones de tu web.

Muy habitual en los resultados de búsquedas, que genera un cambio en la URL con el término de la misma. En archivos de etiquetas, autor, etc.

Si tienes Yoast, RankMath o cualquier otro plugin SEO instalado, haz una prueba: realiza una búsqueda en tu WP y revisa el código fuente del resultado. Verás seguramente esta etiqueta en la cabecera.

index, nofollow

<meta name="robots" content="index, nofollow"/>

En este caso lo contrario, le decimos que puede indexar esta URL pero que NO siga los enlaces, por lo tanto, no transmitirán de forma habitual su valor.

Como señala Tomás de Teresa (en un artículo que ya no existe, así que no puedo enlazar), es la combinación ideal cuando no respaldas los enlaces de una URL en concreto, imagina páginas creadas por los usuarios, por ejemplo en un foro.

noindex, nofollow

<meta name="robots" content="noindex, nofollow"/>

Evitamos indexación y seguir los enlaces. Es una forma de bloqueo total de esa URL. No es muy habitual su uso.

Index, follow

Existe una cuarta etiqueta que es index, follow pero esta etiqueta no hace falta ponerla porque es el comportamiento normal, en la que se identifica una URL se siguen los enlaces y se indexa el contenido en buscadores.

Una aclaración: No hay que saber HTML, obviamente en tecnologías como WordPress los plugins nos hacen muy fácil esta labor, marcando o desmarcando opciones y listo.

¿Hay diferencias entre el robots.txt y los meta robots a nivel de rastreo?

Como nos cuenta Fernando Maciá, si claro, recordad que el robots.txt suele ser uno de los primeros archivos que revisarán los buscadores.

Si marcamos un disallow a un directorio dentro de ese archivo, en principio Google no perderá tiempo rastreando ese directorio, mientras que si llega a una URL con la etiqueta noindex, si que hace un rastreo.

Además, con el robots.txt podemos definir patrones (imaginarse el bloqueo a directorios o subconjuntos de información) mientras que la etiqueta meta robots va en cada URL

¿Qué debemos tomar en cuenta de estas dos formas?

Estos dos métodos son muy necesarios para controlar el rastreo y la indexación.

Por ello es importante dejar en los meta robots las directivas que deseamos, en una forma de controlar la indexación final que haga Google de nuestra web.

Otras directivas para los meta robots

Podemos usar más elementos, algunos ejemplos:

  • archive / noarchive: si queremos que se almacene o no el contenido de la web en la memoria caché interna.
  • noimageindex: para no indexar las imágenes de la página.

Y algunos otros ejemplos, pero con usos menos frecuentes que pone a nuestra disposición Google en su página de ayuda para desarrolladores.

Directivas meta robots

¿Por qué hay problemas en la actualidad con la indexación?

Me atrevería a decir que en el último año, empezamos a ver cambios en este sentido.

Ya no se indexaba todo con la misma facilidad de antes.

Pero no sucedía en todas las ocasiones. Yo personalmente he detectado las siguientes situaciones más frecuentes:

  1. Páginas nuevas con poco historial.
  2. Dominios recién registrados (y con pocos links externos).
  3. Páginas con contenido «poco relevante» a ojos del buscador ¡La madre que los parió!
  4. Webs que han sido hackeadas recientemente, aunque no te llegue el aviso de seguridad. Típico caso que mandaron a indexar mogollón de «trapalladas rusas o chinas» y aunque logres sanear la web, sigue afectando tu índice de cobertura.
  5. Webs lentas con problemas de WPO (web performance optimization)
  6. Casos raros de webs que no permitían el rastreo de forma correcta.

Según la propia documentación de Search Console señalan que:

Descubierta: actualmente sin indexar. Google ha encontrado la página, pero todavía no la ha rastreado; probablemente porque ha determinado que, de hacerlo, el sitio web se sobrecargaría. Por tanto, ha tenido que aplazar el rastreo.

Documentación de Search Console

Esta explicación hace que muchas personas lo vinculen directamente con sobrecarga de la web por temas de WPO.

Lo explican bien en el post de Content King como posibles causas:

  1. Servidor sobrecargado, lo que implica que Google no puede rastrear de forma correcta.
  2. Sobrecarga de contenido. Tu web tiene más contenido que el que la arañita puede rastrear en ese momento. Un caso sin duda excepcional y creo reservado para webs excesivamente grandes.
  3. Mala estructura de enlaces internos.
  4. Contenido de baja calidad, que no añade valor al usuario.

No dudo que hayan casos así, pero la mayoría con los que me he topado no correspondían a esa causa (WPO y/o presupuesto de rastreo), sino a casos de enlazados internos poco eficientes y esa «directiva» de calidad de contenido, que según ellos, tu contenido no tiene un valor específico.

Informe de cobertura de Search Console

Para detectar si tenemos URLs en esta situación, tenemos que ir al informe de cobertura y marcar excluidas.

Índice de excluidas en Search Console

Este informe nos mostrará todas los casos de URLs que NO están indexadas. La mayoría de casuísticas habituales:

  • Excluidas por etiqueta noindex
  • Los errores
  • Las redirecciones
  • Y un largo etc que no vienen al caso

Pero las que nos ocupan este artículo:

  1. Rastreada: actualmente sin indexar. En este caso se suelen indexar más adelante sin mucho problema y sin que implique una acción por nuestra parte. También nos topamos en este apartado muchas cosas que no tienen sentido que se indexen como los feed, filtros de ordenación que no están bien configurados y tienen meta robots como index, etc.
  2. Descubierta: actualmente sin indexar. El caso que buscamos solucionar en este post.

Solución (rápida) al fallo de indexación

Emilio García en su excelente canal de YouTube y podcast: Campamento Web publicó este vídeo que está genial.

Explica de forma clara y sencilla cómo indexar tus contenidos usando la API indexing de RankMath:

Emilio utiliza la metodología explicada en este post de RankMath: Google indexing API.

Una advertencia. Como podemos leer en el post de RankMath, y ellos son muy claros al respecto, esta API de indexación de Google, está diseñada específicamente para:

Google recomienda utilizar la API de indexación SÓLO para JobPosting o BroadcastEvent incrustados en sitios web de VideoObject [tipos de datos estructurados]. Durante nuestras pruebas, descubrimos que funcionaba en cualquier tipo de sitio web con grandes resultados y creamos este plugin para probarlo.

RankMath

Por lo tanto aclaran que esta metodología NO es para todo el mundo. Pero funciona sin duda. ¿Quieres una solución rápida y buena? Este es tu método.

Solución (lenta) para indexar tus contenidos

Los consultores SEO nos topamos con frecuencia con situaciones como esta, que en webs de clientes, hay ciertas cosas que nos dan reparo.

Esta solución es más lenta, pero en general he visto muy buenos resultados: Paciencia ¡Y la madre que los parió!

Todo pasa por:

Rastreo de sitemap con Screaming Frog

1. Analiza tu sitemap.xml

  • Analizar el sitemap.xml de tu web. Copia la URL.
  • Utilizando cualquier crawler como Screaming Frog en modo: Lista > Importar > Descargar sitemap.xml y pegas la dirección del sitemap.
  • Esto descargará y analizará exclusivamente el sitemap (no toda la web).
Códigos de respuesta con Screaming Frog
  • REGLA: El 100% de los códigos de respuesta tienen que ser código 200.
  • NO deben haber redirecciones (3xx), ni errores (4xx). Si tienes errores: arregla la casa primero.
  • Si está todo perfecto, puedes volver a enviar a Google a través de Search Console:
Añadir Sitemap a Search Console

2. Revisa tu robots.txt

Por razones obvias debes analizar que no estés bloqueando ningún directorio o tengas defectos en la sintaxis de este archivo.

Puedes utilizar la herramienta de validación de la web: Technical SEO Tools.

¿Está enlazado tu sitemap? RankMath lo hace por defecto. Otros plugins SEO no y tendrías que agregarlo manualmente.

La sintaxis es muy sencilla, solo es aconsejable ponerlo al final y dejar un espacio entre la directiva del user-agent y el sitemap. Ser minimalista con este archivo es un buen consejo. Ejemplo:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://wajari.com/sitemap_index.xml

3. Analiza las URLs no indexadas en Search Console usando el inspector

Google te puede dar pistas de qué puede estar pasando usando el inspector.

Inspección de URL en Search Console

En este enlace tienes toda la documentación oficial sobre la Herramienta de inspección de URLs.

Si no hay errores aparentes, y simplemente no aparece indexada, como bien sabes, puedes marcar solicitar indexación.

Eso suele funcionar francamente bien. Claro, si se trata de pocas URLs no hay problema de hacerlo así manualmente, pero si hablamos de cientos o miles de URLs, hay que buscar otras opciones.

4. Analiza tus enlaces internos y corrige errores

Rastreadores como Screaming Frog nos permite analizar los enlaces internos. Haría falta un post entero para explicar este punto, pero recordad que los enlaces son esenciales.

Si no tenemos bien enlazados nuestros contenidos, puede ser un factor negativo para que Google descubra las secciones y las agregue a su base de datos.

Mantén en línea los errores y advertencias de Search Console.

Trata de mejorar todos los aspectos que te recomienda la herramienta, desde datos estructurados, hasta las core web vitals que son un factor de ranking y que pueden afectar tanto el rastreo, como tu posicionamiento.

Y por último, y no menos importante: Paciencia.

Google como cualquier empresa comete errores.

En mi experiencia con mis clientes, hemos solucionado la mayoría de situaciones simplemente siguiendo estos pasos.

Hay que ser conscientes que no me quiero ni imaginar, el tamaño de lo que implica indexar todas las webs en internet. Entiendo que representa un reto tecnológico para el gigante californiano.

En algún caso excepcional (medio de comunicación) lo solucioné usando el sitemaps de noticias que obviamente no aplican a todas las webs; pero que permitió reconocer de forma rápida los contenidos que se creaban e indexaban en el momento.

Usando plugins como RankMath es bastante cómodo hacer seguimiento porque si lo tienes conectado con Search Console, puedes ver en la pestaña de estadísticas el estado del índice.

En esa pestaña: «Index status» con un listado de tus URLs, mostrándote si muestra resultados enriquecidos, si está indexada o no, etc.

RankMath index status

Además, tiene un módulo de Indexado instantáneo, aunque solo funciona con Yandex y Bing. Lo hace automáticamente con cambios en tus entradas o páginas, o incluso lo puedes hacer manualmente. Un buen invento sin duda.

Palabras finales

Como es habitual en el SEO: Depende. Tu caso puede tener múltiples causas. Solo te recomiendo paciencia y buscar la mejor solución para tu web.

Nos puede cabrear, nos puede parecer mal, y te entiendo. Empatizo contigo. Pero esa rabia no te permitirá solventar el error.

Como creador de contenidos o empresas, quieres que tu web aparezca en Google, todo el mundo quiere eso.

Yo entiendo que es algo que irán mejorando y en todo caso, es una posibilidad de mejorar nuestra web, tanto en términos de rastreo, enlazado, autoridad, contenidos, velocidad, etc.

Solo espero que este post te ayude a que lo veas desde la tranquilidad, y no desde el desasosiego de: Algo hice mal.

¡No estás sola en este mundo del Descubierta: actualmente sin indexar!

¿Te ha pasado algo similar? Estaré encantando de escuchar tu caso en los comentarios.

¡Larga vida y prosperidad!

Leave this field blank

¿Te suscribes a mi lista?

Te reirás, lo disfrutarás y te puedes borrar cuando quieras. Contenido chachi y anti aburrimiento. El SEO no tiene por qué ser un coñazo. Consejos, promociones y mucho más. Nos vemos dentro. ¡Larga vida y prosperidad!

8 comentarios en «Indexar en Google y la madre que los parió»

  1. Hola Wajari:

    Tenía este artículo pendiente por leer desde que lo escribiste y por fin se llegó la hora. Está excelente amigo, muy completo, detallado y la explicación, ni se diga, muy claro todo. Muchas gracias por compartir tus conocimientos.

    ¡Un saludo!

    Responder
    • Gracias amigo. Te respondí en otro post en la época que escribiste esto y me despisté en darte respuesta en este.

      Espero colgar próximamente unos artículos sobre Search Console en profundidad que creo vendrán genial.

      Un abrazo, 🙂

      Responder
  2. ¿Qué ocurre cuando por error has generado varias urls incorrectas y google las está rastreando? Ya no están en el sitemap ni hay enlaces internos en la web (comprobado mediante screaming frog) pero si ves los logs de google sigue pasando por urls que ya no existen hace meses? se debe crear un 401 a todas ellas? o hay otras soluciones?

    Responder
    • Hola Na,
      Muchas gracias por tu pregunta. Muy interesante. Me llama la atención que en logs de Google siga pasando por URLs que no existen.

      Si no existen ¿Qué código de cabecera generan si entras en ellas? ¿No están generando un 404?

      Cuando dices los logs de Google, ¿Te refieres a los del servidor o los datos que comparte Search Console?

      Sea como sea el caso, tú mismo (a) diste con la clave. OJO, es 410, no 401, que indicaría contenido borrado y listo. Creo que es lo mejor que puedes hacer en cualquiera de los casos para sanear esos rastreos.

      Mucha suerte con eso. Saludos 😉

      Responder
  3. Muchas gracias por el post. Yo tengo varios blogs de blogger y no tengo la solución que propone Campament Web.

    La sintaxis que tengo es:
    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow: /

    Sitemap: el blog en concreto

    ¿es correcto?

    Responder
    • Gracias a ti Xabi por el comentario.

      Si, tu robots.txt está correcto. 🙂

      Técnicamente, y siendo puristas, el allow, después del Disallow: /search no haría falta porque ese allow crea una «excepción» dentro de la directiva de bloqueo anterior. Resumiendo: Da igual que tengas esa línea o no.

      Pero lo demás perfecto. No te olvides de enviarle el sitemap en Search Console directamente para «forzar» de alguna manera que el buscador rastree todas las URLs que te interesan.

      Suerte con eso. ¡Un abrazo!

      Responder

Deja un comentario