Creación de Spider.

jmqc · #1 (**permalink**) 09/02/2006, 12:00

Que tal, buenas tardes bueno mi duda y ojala pudieran darme un poco de luces con esto es la creación de un spider o especie de uno, explico por que, el cliente quiere que esta funcion como quiera que se llamase visite url almacenadas en una tabla en mysql, copie texto del navegador en una tabla de mysql. El problema no es copiar el texto ni leer las url's si no como hacer que se ejecute el script de lectura dentro de las páginas.. Si alguien sabe de algo le agradeceria una idea.. Saludos

Cluster · #2 (**permalink**) 09/02/2006, 13:08

[quote]El problema no es copiar el texto ni leer las url's si no como hacer que se ejecute el script de lectura dentro de las páginas..

No entendí entonces donde tienes el problema.

Según entiendo tu ya sabes o no (confirma lo que no sepas):
1) Leer tu BBDD y aplicar el proceso que se requiera con esos URL's almacenados.
2) Abrir cada URL sobre una variable vía PHP par poder procesar su contenido.
3) Eliminar todo HTML/javascript y en general todo lo que quede entre < ... > para quedarnos con el "contenido" en sí (si corresponde, no sé que andas buscando en esas páginas concretamente).
4) Procesar su contenido (aplicacando expresiones regulares en busca de algún patrón dado para quedarse con la información que se necesite).

Si quieres algo hecho .. usa google por el término "spider" realmente salen muchos. Uno de tantos:

http://cs.ioc.ee/~ando/sphider/index.php

(no sé que tanto te servirá en sí .. pero puedes analizar su código .. seguro que algo te ayudará).

Un saludo,

jmqc · #3 (**permalink**) 10/02/2006, 11:30

Gracias Cluster. Todo el proceso que se refiere a la BD esta claro, la cuestion es que no me puedo imaginar como hacer para que una pagina o script entre en otro url y como sacar el contenido de la misma, no se si ahora mejoro la explicación... Saludos

Cluster · #4 (**permalink**) 10/02/2006, 13:53

Fijate en el código que implementa el "spider" que te dejé.

El procedimiento para que se sigua entrando en otro URL se refiere a localizar todos los tags de Link (<a href=.....>) HTML por el formato que tienen usando expresiones regulares.

Pero antes de llega a eso debes tomar el contenido de tu página (del primer URL dado de inicio). Eso lo puedes hacer de várias forma .. fopen() apuntando a tu URL y de ahí fread() . .o usando el buffer de salida de PHP: ob_start() .. include("a tu URL") y tomando el buffer a una variable ob_get_contents() .. etc.

Un saludo,