Foros del Web - Ver Mensaje Individual

Cluster · #3 (**permalink**) 21/09/2004, 20:16

mm bueno .. rubenije .. No es tan simple el funcionamiento de un spider .. Sí, una parte es "abrir" el archivo .. pero lo que hace el "spider" es abrir dicho archivo (código HTML/fuente) en busca (vía expresiones regulares) de tag's tipo links (<a href ...>) para ir creando la BD de páginas que habrá que ir a abrir ... Otro proceso es filtrar todo código HTML/etc (más expresiones regulares) para quedarse con el auténtico contenido de la página y de ahí empezar a ver palabras claves (las que más se repitan) para ir creando el diccionario/index .

Lo mejor es ver como trabajan este tipo de aplicaciones .. Puedes verlas por aquí:
http://www.hotscripts.com/PHP/Script...rch/index.html
http://www.hotscripts.com/PHP/Script...ing/index.html

Un saludo,