Código:
Con lo cual, entiendo que cualquier página en /w/ debería estar bloqueada.User-agent: * Allow: /w/sitemap.xml Disallow: /yo.php Disallow: /w/ Disallow: /wiki/Special:Search Disallow: /wiki/Special:Random
Sin embargo, al buscar en Google site:midominio.com me aparece que hay indexadas más de 1.000 páginas, lo cuál es un despropósito en mi sitio.
Pruebo a ver qué páginas tiene indexadas, y me muestra 39, pero al final hay un botón "omitir páginas similares a las mostradas". Y ahí viene el caos: me muestra las 1.000 y pico páginas que supuestamente deberían estar bloquedas: por poner un ejemplo
http://midominio.com/w/index.php?title=Pagina1&oldid=3
¿Por qué Google ha indexado cientos y cientos de páginas que han sido bloqueadas con el robots.txt y aunque inicialmente no las muestra, con una búsqueda ampliada sí las muestra?
Me preocupa, porque estas mil y pico páginas son contenido dinámico: todas las versiones viejas de una página, enlaces a una página, páginas especiales...
¿Está mal el archivo robots.txt? ¿Es una práctica normal en Google mostrar los resultados así?
Modificación: he seguido mirando, y debo añadir que en Google Webmaster Tools se me avisa de que 600+ páginas no se han podido acceder por el archivo robots.txt He probado, y efectivamente, Google me detecta 600 páginas que no debe indexar dentro de /w/ pero sin embargo me indexa otras 1.000 también dentro de /w/
Indicar que si busco en Google una de las 600 páginas bloqueadas no aparece absolutamente nada, pero si busco una de las 1.000 páginas erróneamente indexadas y que con "incluir resultados omitidos" puedo localizar, me aparece alguna página de las pocas que deberían estar indexadas, junto con la opción de "incluir resultados omitidos..." y al pinchar ahí, también me aparece la página erróneamente indexada.