Comento como funciona el spider de cuasarBot.
1. Añades una web (formulario de alta).
2. El spider comprueba si la url ya existe.
3. Si no existe hace lo siguiente:
3.1 Comprueba la existencia del fichero robots.txt
3.2 Descarga la url
3.3 Almacena la página como HTML
4. Analiza el contenido de la página en busca de URLs
5. Todas las URLs van al paso 1.
Existen muchos pasos más, pero eso ya depende del algoritmo de cada buscador, pero lo básico es lo que comentaba.
Existen muchos spider ya programados, el spider de cuasarBot está programado desde 0 y son 4 procesos que se encargan de descargar páginas (muy pronto pondré 10 procesos).
Hay muchos detalles para el desarrollo de un buen spider, por ejemplo las redirecciones (http 302), ...
El lenguaje de cuasarBot es C++ y el sistema Linux Suse.
Tengo una página dedicada al estado del spider, en esta página puedo comprobar como afecta cualquier cambio:
http://www.cuasar.com/blogs/status.php