Hola a todos!
Si bien he estado leyendo sobre el tema me han quedado algunas dudas que quisiera despejar antes de indexar un sitio:
- Es bueno o no subir al hosting el archivo robots.txt?? porque he leido que muchos dicen que no es conveniente, o en su lugar es mejor el htacces??? se configura del mismo modo?.
- Es conveniente deshabilitar la carpeta images? y la de scripts?
- Es preferible dejar que TODOS los robots revisen el sitio?
- Los robots que no incluya en el archivo no indexarán el sitio?
- La etiqueta META <META NAME="Robots" CONTENT="Index, Follow"> es válida si utilizo el archivo robots.txt? es decir si dentro del archivo pongo restricciones este tag los anula?
- Cómo se utiliza la etiqueta Meta "If-Modified-Since"? entiendo que es para refrescar las cache y de esa manera no sufrir sobrecarga.
Gracias a todos!!!
------------------------------ Aquí va un ejemplo para ver si está bien:
Código HTML:
# Robot Inktomi - restringido en carpeta images
User-agent: Slurp
Disallow: /images/
# Robot Google
User-agent: Googlebot
Disallow:
# Robot Altavista
User-agent: Scooter
Disallow:
# Robot Alltheweb - ES CORRECTO EL NOMBRE DE ESTE ROBOT????
User-agent: Crawler
Disallow: /images
# Robot MSN
User-agent: msnbot
Disallow:
# Esto lo encontré por ahí buscando info - es válido?
# Permitir trabajar a los botsde 2 am a 7:45 am
# Las horas son siempre Greenwitch
Visit-time: 0200-0745
# Un documento CADA 30 minutos
Request-rate: 1/30m
# Combinado: 1 doc cada 10 minutos
# y solo de una a 5 tarde
Request-rate: 1/10m 1300-1659