Si bien he estado leyendo sobre el tema me han quedado algunas dudas que quisiera despejar antes de indexar un sitio:
- Es bueno o no subir al hosting el archivo robots.txt?? porque he leido que muchos dicen que no es conveniente, o en su lugar es mejor el htacces??? se configura del mismo modo?.
- Es conveniente deshabilitar la carpeta images? y la de scripts?
- Es preferible dejar que TODOS los robots revisen el sitio?
- Los robots que no incluya en el archivo no indexarán el sitio?
- La etiqueta META <META NAME="Robots" CONTENT="Index, Follow"> es válida si utilizo el archivo robots.txt? es decir si dentro del archivo pongo restricciones este tag los anula?
- Cómo se utiliza la etiqueta Meta "If-Modified-Since"? entiendo que es para refrescar las cache y de esa manera no sufrir sobrecarga.
Gracias a todos!!!
------------------------------ Aquí va un ejemplo para ver si está bien:
Código HTML:
# Robot Inktomi - restringido en carpeta images User-agent: Slurp Disallow: /images/ # Robot Google User-agent: Googlebot Disallow: # Robot Altavista User-agent: Scooter Disallow: # Robot Alltheweb - ES CORRECTO EL NOMBRE DE ESTE ROBOT???? User-agent: Crawler Disallow: /images # Robot MSN User-agent: msnbot Disallow: # Esto lo encontré por ahí buscando info - es válido? # Permitir trabajar a los botsde 2 am a 7:45 am # Las horas son siempre Greenwitch Visit-time: 0200-0745 # Un documento CADA 30 minutos Request-rate: 1/30m # Combinado: 1 doc cada 10 minutos # y solo de una a 5 tarde Request-rate: 1/10m 1300-1659