Evitar que buscadores encuentren aplicación Web

jchernandez · #1 (**permalink**) 28/12/2004, 18:27

Hola a todos, tengo una duda o un problema, tengo un sitio Web el cual consta de unas plantillas Web de Administración que quiero evitar que algún robot o buscador me las encuentre y la ponga a disposición en la Web lo cual sería algo no deseado porque a ellas tengo acceso nada más iniciando sesión por cuentas de usuarios.

Podría ocurrir ese problema, si es así, como podría evitar que dichos robots la encuentren y pongan esta a disposición al público sin tomar en cuenta que son páginas privadas que únicamente se acceden a ellas a través de Login de usuarios.

Gracias y Feliz año nuevo.

FuLaNo_ · #2 (**permalink**) 28/12/2004, 19:26

Si la pones afuera de la carpeta public_html ?, yo tengo varios scrips.php alli y solo puedo acceder yo, puedes llamarla haciendo el path ../../../archivo.php...

Tambien esta bueno ponerl los archivos que ejecutas desde CRON fuera del alcance de los bots y usuarios... (ejemplo tonto: script que envia un mail a un usuario que cumple años)

jchernandez · #3 (**permalink**) 28/12/2004, 20:06

Que es CRON?, Yo sé que los robots o buscadores, en un nombre de dominio revisan cada página Web y cada carpeta y su contenido, escudriñan todo, el contenido de la página, independientemente de que haya o no un vínculo a esa página con tus propias páginas y eso es lo que quiero evitar, que escudriñen hasta páginas que no ocupo y tengo en carpetas y ellas las pongan a disposición Web.

Yo las tengo en la carpeta de publicación Web httpd, no sé si se podrá poner en otro lado a través de dominios virtuales.

dmedina83 · #4 (**permalink**) 28/12/2004, 21:54

Hola necesitas incluir un archivo robots.txt
esto evitara que los robots de los buscadores incluyan cierto contenido de tu web

en dicho archivo deberas poner lo siguiente

Código:

User-agent: *  (esto significa que todos los robots existentes ignoraran el contenido especificado)
Disallow: /directorio/
Disallow: archivo.html

puedes obtener mayor informacion de la siguiente página
http://www.webtaller.com/google/guia_robots.php

Nos vemos espero te sirva

josemi · #5 (**permalink**) 29/12/2004, 01:51

Hola,

Cita:

Yo sé que los robots o buscadores, en un nombre de dominio revisan cada página Web y cada carpeta y su contenido, escudriñan todo, el contenido de la página, independientemente de que haya o no un vínculo a esa página con tus propias páginas

Mentira, los robots de los buscadores necesitan de la URL para encontrar la pagina. Otra cosa es que por x o por z pueda llegar a saber la url (como permitir que tu servidor web liste el contenido de los directorios si no encuentra un fichero index).

Concretemos algo mas, ¿de que tipo de ficheros hablamos? ¿.php, .html, .tpl? ¿Son ficheros que deben ser accesibles por http (por la barra de direcciones) despues de la autentificacion o solo mediante include()? Si solo son manipuladas por PHP, la solucion mas efectiva es capar el acceso via HTTP en el servidor web. En la configuracion del servidor web puedes configurar el tipo de ficheros o el directorio que no quieres que sea accesible via HTTP. Otra opcion es la que te han comentado, crear un directorio por encima de la raiz de tu sitio y meter alli los ficheros.

Al final se reduce a lo siguiente: que cuando tu intentes poner la URL del fichero a proteger en la barra de direcciones sin identificarte, el servidor web no devuelva datos.

saludos.

PD: El robots.txt solo funciona para los "buenos" robots. Para los malosos, les das pistas de donde tienen que mirar. Solo es un fichero de texto informativo, no obliga a cumplimiento, ni impide los accesos no deseados.