Cita:
Iniciado por El-FeNiX Las paginas permiten a google indexar o guardar la cache, o prohibirselo. Para eso esta el robots.txt.
Si quieres hacer un spider debes detectar la configuración de robots.txt y en el user-agent poner la url de información sobre tu spider y proporcionar un mecanismo para la gente que no quiera ser indexada (normalmente por robots.txt).
No sé hasta cuanto de legal es esto, pero en los blogs que tengo entran montones de robots poco conocidos y la mayoria funcionan así.
Saludos.
Si conosco esos mecanismos, el tema en cuestion es ¿Es justo o injusto?
para mi injusto, debiera ser al reves, es decir, nosotros decirle a google "SI, quiero que me indexes" y no como ocurre que hay que decirle lo contrario. Los usuarios comun y corrientes no tienen los conocimientos para decirle a google "no quiero que guardes nada de mi"
saludos