Ver Mensaje Individual
  #16 (permalink)  
Antiguo 19/02/2012, 12:52
Avatar de charlyalegret
charlyalegret
 
Fecha de Ingreso: septiembre-2011
Ubicación: Barcelona
Mensajes: 705
Antigüedad: 13 años, 2 meses
Puntos: 140
Respuesta: Evitando los crawls de Google

Si escribes

Disallow: /articles/lanzador.php*
Te debería bloquear cualquier cadena que empieze por /articles/lanzador.php
(según google: http://support.google.com/webmasters...&answer=156449, clicando en crear archivo manualmente)

También puedes alojar lanzador.php en otro directorio y bloquearlo.

Otra opción es que dentro de usarios no registrados, recojas también el user agent, así obtendrás más información para tu análisis y podrás descartar los robots.

También puedes bloquarlos mediante htaccess. Una manera habitual es la siguiente, en la que niegas el acceso a los bots cuando la url es del tipo /articles/lanzador (nota: no lo he probado personalmente, podría no funcionar). La lista de bots la he tomado prestada, y se supone que es de bots poco fiables, faltaría añadir los bots usuales como google, bing, etc.

Código Apache:
Ver original
  1. RewriteEngine On
  2.     RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
  3.     RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:[email protected] [OR]
  4.     RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
  5.     RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
  6.     RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
  7.     RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
  8.     RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
  9.     RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
  10.     RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
  11.     RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
  12.     RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
  13.     RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
  14.     RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
  15.     RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
  16.     RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
  17.     RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
  18.     RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
  19.     RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
  20.     RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
  21.     RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
  22.     RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
  23.     RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
  24.     RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]
  25.     RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]
  26.     RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR]
  27.     RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
  28.     RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
  29.     RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
  30.     RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
  31.     RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
  32.     RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
  33.     RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
  34.     RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
  35.     RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
  36.     RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
  37.     RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
  38.     RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
  39.     RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
  40.     RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
  41.     RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
  42.     RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
  43.     RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]
  44.     RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR]
  45.     RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
  46.     RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
  47.     RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
  48.     RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
  49.     RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
  50.     RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
  51.     RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
  52.     RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
  53.     RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
  54.     RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
  55.     RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
  56.     RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
  57.     RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]
  58.     RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
  59.     RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
  60.     RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
  61.     RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
  62.     RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
  63.     RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
  64.     RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
  65.     RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
  66.     RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
  67.     RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
  68.     RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
  69.     RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
  70.     RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
  71.     RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
  72.     RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
  73.     RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
  74.     RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
  75.     RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
  76.     RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
  77.     RewriteCond %{HTTP_USER_AGENT} ^Zeus
  78.     RewriteRule ^articles/lanzador.php - [F,L]

Saludos

Última edición por charlyalegret; 19/02/2012 a las 13:51 Razón: Quizá sea más sencillo así...