Foros del Web - Ver Mensaje Individual - Analytics e Indexación (¿entorno de test?)

santiagoanuncios · #14 (**permalink**) 20/10/2015, 13:37

RBZ Si crees que google rastrea las urls restringidas entonces debo suponer que no usas un robots.txt?

Cita:

Se entiende la diferencia entre rastreo e indexación pero si Google indexa una web de varias páginas, bloqueada desde robots.txt, es evidente que ha rastreado el sitio. Esa es mi opinión.

No, si encuentra un enlace ( o una referencia ) se queda con esa url pero no la rastrea si en el robots.txt le tienes un disavow, por eso te pone ese mensaje en los resultados de búsqueda,

mira rastrear es hacer una petición de esa página y leer el html que le llega ( y a partir de ahí en función de lo que le llegue la indexará o no, depende del meta robots etc.. )

Si encuentra un enlace de una url que está restringida en el robots.txt se queda con esa url, y con el texto ancla ( anchor text ) pero no con el contenido de esa url.

google dice: https://support.google.com/webmaster.../6062608?hl=es

Cita:

Las indicaciones de robots.txt no pueden impedir las referencias a las URL que provienen de otros sitios
Mientras que Google no rastreará ni indexará el contenido bloqueado por robots.txt, es posible que encontremos e indexemos una URL no autorizada de otras partes de la Web. Por lo tanto, es posible que la dirección URL y otra información de disponibilidad pública, como el texto del enlace que lleva al sitio, todavía puedan aparecer en los resultados de las búsquedas de Google. Puedes impedir que la URL se muestre en los resultados de la Búsqueda de Google completamente utilizando una combinación de robots.txt y otros métodos de bloqueo de las URL, como proteger con contraseña los archivos del servidor, o bien insertar metaetiquetas para las indicaciones de indexación en el HTML.

Esto es lo que dice google que hace, y yo sé que lo hace porque yo audito mis logs y se lo que visita googlebot y lo que no.

Google es muy escrupuloso con las indicaciones del robots.txt y los metas ( salvo el canonical, que es una recomendación ).

La confusión la tenéis en lo que es indexación y lo que es rastreo

Indexación es cuando googlebot encuentra una url que no tiene y que puede añadir a su índice bien sea sólo la referencia y el anchor text, o bien todo el contenido, rastreo es cuando googlebot puede leer ese contenido.

Mira una url que tengas restringinda en el robots.txt que nunca halla sido indexada si la enlazas te pondrá ese mensaje en los resultados de búsqueda que decía Daniel, pero si le haces una búsqueda con un trozo de contenido de esa url ( que no esté en la propia url como es lógico ) no te pondrá nada en los resultados de búsqueda

Yo utilizo esto mucho esto porque las páginas que mas rastrea googlebot son las que mas tráfico traen ( eso te lo digo yo ) y si consigues que no pierda tiempo en las urls que no posicionan nada, rastreará otras urls de tu web que si te pueden traer tráfico y ganas muchas visitas.

Y hasta aquí, si continúa la discusión yo ya me rindo XD no puedo más

Un saludo