[Propuesta] Spider paso a paso

xarmagedonx · #1 (**permalink**) 23/06/2012, 15:22

Hola programadores, expertos, novatos y todos los usuarios de FDW!!, hace ya algunas semanas que estoy investigando sobre los spiders y webcrawlers, y me di cuenta que aunque en PHP haya más programadores no hay tanta información sobre estos robots como en Python.

El web crawler funcional que encontré está escrito en phyton, al igual que muchos otros. Encontré también muchas peticiones de como desarrollar un spider.

Por eso les hago una propuesta:

Creemos un spider en PHP para todos los usuarios de FDW, todos pueden colaborar y lo armaremos entre todos.

Para que el web crawler sea funcional para todos debe hacer lo siguiente:

Cita:

*Conectarse a una DB (base de datos)
*Explorar la url que se le entregue,
*Si es funcional: {
Extraer la url y colocarla en la DB.
Explorar el código html y extraer lo que se encuentre en <title> </title>, añadir a DB.
Buscar las metatags. En caso de que no existan:
Extraer primer párrafo para la descripción y añadir a DB.
Extraer encabezados (h1,h2,h3...) y texto en negrita (<b></b>) para las keywords.
}

Es un trabajo bastante grande, así que podríamos dividirlo en varias partes y que cada usuario vaya publicando parte del código.

Si les parece válida e interesante la propuesta podemos empezar con el código.

El código será libre por lo que todos podrán modificarlo y compartirlo (mientras admitan que fue desarrollado por los usuarios de FDW).

maycolalvarez · #2 (**permalink**) 23/06/2012, 16:43

No comparto la misma idea, con solo buscar se puede conseguir mucha información http://www.google.co.ve/search?hl=es...hp&v=132172377 ¿Para que reinventar la rueda?, existen clases con la misma función, además para que hacer un spider en PHP a no ser que quieras competir en el modelo de negocio de buscadores

xarmagedonx · #3 (**permalink**) 23/06/2012, 17:24

Cita:

Iniciado por maycolalvarez

No comparto la misma idea, con solo buscar se puede conseguir mucha información http://www.google.co.ve/search?hl=es...hp&v=132172377 ¿Para que reinventar la rueda?, existen clases con la misma función, además para que hacer un spider en PHP a no ser que quieras competir en el modelo de negocio de buscadores

No creo que un spider sirva solo para los que quieren competir contra los buscadores más grandes.

Puede ser util como para un simple buscador interno, uno no añade sus páginas 1 por 1 a la base de datos por lo que el spider les serviría.

Con respecto a ¿Para que reinventar la rueda?, no creo que sean utiles las ruedas de madera para un auto deportivo. Muchas cosas se reinventan con el tiempo para adaptarlas a los tiempos donde vivimos.

maycolalvarez · #4 (**permalink**) 23/06/2012, 21:19

Exacto, pero la rueda de un auto deportivo sigue el mismo principio de la rueda original, no se reinvento, fue adaptada para la necesidad específica, así como yo podría tomar una de tantas clases de spider hechas en PHP, extenderla y adaptarla a mis necesidades, no hacer una desde cero como pretendes porque consume mucho más tiempo, además de que no se aprovecha de lo que esta ya hecho y de los patrones de diseño que pueden estar aplicados a dichas clases.

Es exactamente la misma discusión que se tiene contra los que quieren hacer un framework propio, francamente de poder hacerse se hace, pero hay que tener muchos conocimientos y una sólida comunidad de desarrolladores comprometidos en ello, y aveces no es fácil de lograr, además de la capacidad de aceptar críticas constructivas, que nunca faltan y menos en comunidades cómo esta.