Foros del Web » Programando para Internet » PHP »

[Propuesta] Spider paso a paso

Estas en el tema de [Propuesta] Spider paso a paso en el foro de PHP en Foros del Web. Hola programadores, expertos, novatos y todos los usuarios de FDW!!, hace ya algunas semanas que estoy investigando sobre los spiders y webcrawlers, y me di ...
  #1 (permalink)  
Antiguo 23/06/2012, 15:22
Avatar de xarmagedonx  
Fecha de Ingreso: marzo-2009
Mensajes: 360
Antigüedad: 15 años, 8 meses
Puntos: 29
De acuerdo [Propuesta] Spider paso a paso

Hola programadores, expertos, novatos y todos los usuarios de FDW!!, hace ya algunas semanas que estoy investigando sobre los spiders y webcrawlers, y me di cuenta que aunque en PHP haya más programadores no hay tanta información sobre estos robots como en Python.

El web crawler funcional que encontré está escrito en phyton, al igual que muchos otros. Encontré también muchas peticiones de como desarrollar un spider.

Por eso les hago una propuesta:

Creemos un spider en PHP para todos los usuarios de FDW, todos pueden colaborar y lo armaremos entre todos.

Para que el web crawler sea funcional para todos debe hacer lo siguiente:


Cita:
*Conectarse a una DB (base de datos)
*Explorar la url que se le entregue,
*Si es funcional: {
Extraer la url y colocarla en la DB.
Explorar el código html y extraer lo que se encuentre en <title> </title>, añadir a DB.
Buscar las metatags. En caso de que no existan:
Extraer primer párrafo para la descripción y añadir a DB.
Extraer encabezados (h1,h2,h3...) y texto en negrita (<b></b>) para las keywords.
}
Es un trabajo bastante grande, así que podríamos dividirlo en varias partes y que cada usuario vaya publicando parte del código.

Si les parece válida e interesante la propuesta podemos empezar con el código.

El código será libre por lo que todos podrán modificarlo y compartirlo (mientras admitan que fue desarrollado por los usuarios de FDW).
  #2 (permalink)  
Antiguo 23/06/2012, 16:43
Avatar de maycolalvarez
Colaborador
 
Fecha de Ingreso: julio-2008
Ubicación: Caracas
Mensajes: 12.120
Antigüedad: 16 años, 3 meses
Puntos: 1532
Respuesta: [Propuesta] Spider paso a paso

No comparto la misma idea, con solo buscar se puede conseguir mucha información http://www.google.co.ve/search?hl=es...hp&v=132172377 ¿Para que reinventar la rueda?, existen clases con la misma función, además para que hacer un spider en PHP a no ser que quieras competir en el modelo de negocio de buscadores
__________________
¡Por favor!: usa el highlight para mostrar código
El que busca, encuentra...
  #3 (permalink)  
Antiguo 23/06/2012, 17:24
Avatar de xarmagedonx  
Fecha de Ingreso: marzo-2009
Mensajes: 360
Antigüedad: 15 años, 8 meses
Puntos: 29
Respuesta: [Propuesta] Spider paso a paso

Cita:
Iniciado por maycolalvarez Ver Mensaje
No comparto la misma idea, con solo buscar se puede conseguir mucha información http://www.google.co.ve/search?hl=es...hp&v=132172377 ¿Para que reinventar la rueda?, existen clases con la misma función, además para que hacer un spider en PHP a no ser que quieras competir en el modelo de negocio de buscadores
No creo que un spider sirva solo para los que quieren competir contra los buscadores más grandes.

Puede ser util como para un simple buscador interno, uno no añade sus páginas 1 por 1 a la base de datos por lo que el spider les serviría.

Con respecto a ¿Para que reinventar la rueda?, no creo que sean utiles las ruedas de madera para un auto deportivo. Muchas cosas se reinventan con el tiempo para adaptarlas a los tiempos donde vivimos.
  #4 (permalink)  
Antiguo 23/06/2012, 21:19
Avatar de maycolalvarez
Colaborador
 
Fecha de Ingreso: julio-2008
Ubicación: Caracas
Mensajes: 12.120
Antigüedad: 16 años, 3 meses
Puntos: 1532
Respuesta: [Propuesta] Spider paso a paso

Exacto, pero la rueda de un auto deportivo sigue el mismo principio de la rueda original, no se reinvento, fue adaptada para la necesidad específica, así como yo podría tomar una de tantas clases de spider hechas en PHP, extenderla y adaptarla a mis necesidades, no hacer una desde cero como pretendes porque consume mucho más tiempo, además de que no se aprovecha de lo que esta ya hecho y de los patrones de diseño que pueden estar aplicados a dichas clases.

Es exactamente la misma discusión que se tiene contra los que quieren hacer un framework propio, francamente de poder hacerse se hace, pero hay que tener muchos conocimientos y una sólida comunidad de desarrolladores comprometidos en ello, y aveces no es fácil de lograr, además de la capacidad de aceptar críticas constructivas, que nunca faltan y menos en comunidades cómo esta.
__________________
¡Por favor!: usa el highlight para mostrar código
El que busca, encuentra...

Etiquetas: propuesta, spider, webcrawler
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta

SíEste tema le ha gustado a 1 personas




La zona horaria es GMT -6. Ahora son las 18:16.