Foros del Web » Programación para mayores de 30 ;) » Programación General »

Busco orientación y consejo para parsear una página web

Estas en el tema de Busco orientación y consejo para parsear una página web en el foro de Programación General en Foros del Web. Hola a todos, voy al grano a ver si me podéis echar un cable, seguro que sí: - El problema: Tengo que recoger la información ...
  #1 (permalink)  
Antiguo 05/02/2013, 17:13
 
Fecha de Ingreso: mayo-2005
Mensajes: 92
Antigüedad: 19 años, 6 meses
Puntos: 2
Busco orientación y consejo para parsear una página web

Hola a todos, voy al grano a ver si me podéis echar un cable, seguro que sí:

- El problema:

Tengo que recoger la información que se muestra en una página web y guardarla en una base de datos para luego poder mostrarla en otra web (mía) de la forma que mejor me parezca. Además de la página que os adjunto, me gustaría parsear, también, otras páginas dentro de ese mismo site.

Llevo unos días dándole vueltas ya que mis conocimientos sobre estas cosas no son nulos pero no es tampoco mi fuerte.

Tengo intención de montar mi página web con Ruby y postgresql para la base de datos.

Según he ido leyendo por ahí, se podría hacer con un script que "parsee" la página en cuestión y la vaya almacenando en la base datos. El problema es que no se por donde empezar... jejeje

Me lo he organizado de la siguiente manera, a ver que os parece:

1º Crear la base de datos y su estructura (primera cosa que no se hacer) de una forma óptima para poder almacenar la información correctamente a efectos de luego poder acceder a ella de la manera más sencilla.

2º Crear el script que recoga todos los datos de la página web. Pretendo hacerlo con Ruby, aunque he leido que Phyton es muy bueno para esto.

3º Guardar esos datos en la base de datos en función a una estructura lógica. Supongo que también con Ruby.

4º Coger esos datos y mostrarlos en una página web propia. Me gustaría parsear toda la información pero luego poder mostrar la que yo necesite en cada momento. Esto ya sería una segunda fase. Primero me gustaría poder ver toda la información en una base de datos propia.

No quiero tampoco que me paséis el script, sino más bien que me orientéis un poco para que pueda tener algunos conceptos claros sobre el tema ya que es la primera vez que voy a hacer algo así. Si me pudieráis pasar alguna referencia sobre el tema, también os lo agradecería. No se por donde empezar a buscar tanto a la hora de hacer un script para parsear como a la hora de organizar bien la base datos para que, primero guarde la información y luego la muestre.

Os agradezco muchísimo el tiempo.

Un saludo.

Pd. Si este no es el foro apropiado para esto, ruego me disculpen. No sabía muy bien en que otro sitio colocarlo.

Última edición por carlos2; 28/02/2013 a las 22:50
  #2 (permalink)  
Antiguo 30/03/2013, 23:31
Avatar de ggomez91  
Fecha de Ingreso: octubre-2008
Mensajes: 181
Antigüedad: 16 años, 1 mes
Puntos: 13
Respuesta: Busco orientación y consejo para parsear una página web

Hola, no es algo sencillo lo que quieres hacer pero no es difícil, solo complicado. Atendiendo tus 4 puntos:

Cita:
1º Crear la base de datos y su estructura (primera cosa que no se hacer) de una forma óptima para poder almacenar la información correctamente a efectos de luego poder acceder a ella de la manera más sencilla.
Depende de los datos que quieras almacenar, te recomiendo buscar sobre el modelo ER de bases de datos. Básicamente debes crear tablas y definir sus relaciones, esto lo puedes hacer a mano con sql o con algun programa que te ayude. Mysql workbench por ejemplo puede crear la base desde un diagrama ER, muy útil.

Cita:
2º Crear el script que recoga todos los datos de la página web. Pretendo hacerlo con Ruby, aunque he leido que Phyton es muy bueno para esto.
El lenguaje que uses no es tan importante ya que existen muuuchas librerías para parsear el DOM. DOM es una estructura de datos tipo Árbol que describe una página, lee sobre el DOM y luego busca una librería para parsearlo en tu lenguaje favorito, esencialmente te van a dar un objeto DOM y a ese le pides hijos y a esos hijos más hijos y así.. por ejemplo:

Código:
html.body.divDatos.form1.inputA.val()

Cita:
3º Guardar esos datos en la base de datos en función a una estructura lógica. Supongo que también con Ruby.
Esto va a depender de tu lenguaje y la base de datos, ya tendrás que investigar como crear la conexión y realizar consultas.

Cita:
4º Coger esos datos y mostrarlos en una página web propia. Me gustaría parsear toda la información pero luego poder mostrar la que yo necesite en cada momento. Esto ya sería una segunda fase. Primero me gustaría poder ver toda la información en una base de datos propia.
Pues esto depende mucho del lenguaje y el entorno de desarrollo que uses, de ruby no sé mucho pero basicamente debes leer sobre DHTML en dicho lenguaje

Espero haber sido de ayuda, si necesitas algo más mándame pm.

Etiquetas: consejo, empezar, página, parsear
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 16:00.