27/05/2013, 09:55
|
| | | Fecha de Ingreso: enero-2013 Ubicación: Madrid
Mensajes: 72
Antigüedad: 11 años, 11 meses Puntos: 8 | |
Respuesta: mini google bot Es muy sencillo.
Scrapeas una página (en caso de ASP clásico supongo que utilizarás msxml2). Con ayuda de expresiones regulares sacas el título, la descripción y todos los enlaces para guardarlos en una tabla a modo de cola. Los internos primero y los externos después.
Empiezas a recorrer la cola y haces lo mismo con cada uno de los enlaces.
Lo ideal sería hacer un ejecutable y programarlo para que se ejecute cada x tiempo y procese toda la cola a la vez que va generando una nueva cola para la siguiente ejecución.
De todas formas, necesitarás poner límites en mucho sentidos: tiempo de ejecución, páginas hijas a analizar, etc. Porque se te puede ir de las manos.
Y ya no hablemos de que cuentes con los recursos necesarios a nivel de máquina. Porque tener un script en ejecución casi permanente se nota. :/ |