Porque no lo haces con robots.txt, aparte de denegar el que quieras puedes poner tiempo máximo que les permites rastrearte.
Código HTML:
Ver originalUser-agent: baiduspider
Disallow:
User-agent: *
Disallow:
Crawl-delay: 10
Disallow: /cgi-bin/
Disallow: /tucarpetaprivada/
Sitemap: http://www.tusitio.com/sitemap.xml
Por ejemplo... aqui denegamos a baidu y al resto solo le permitimos 10s.