Ver Mensaje Individual
  #2 (permalink)  
Antiguo 30/03/2013, 23:31
Avatar de ggomez91
ggomez91
 
Fecha de Ingreso: octubre-2008
Mensajes: 181
Antigüedad: 16 años, 1 mes
Puntos: 13
Respuesta: Busco orientación y consejo para parsear una página web

Hola, no es algo sencillo lo que quieres hacer pero no es difícil, solo complicado. Atendiendo tus 4 puntos:

Cita:
1º Crear la base de datos y su estructura (primera cosa que no se hacer) de una forma óptima para poder almacenar la información correctamente a efectos de luego poder acceder a ella de la manera más sencilla.
Depende de los datos que quieras almacenar, te recomiendo buscar sobre el modelo ER de bases de datos. Básicamente debes crear tablas y definir sus relaciones, esto lo puedes hacer a mano con sql o con algun programa que te ayude. Mysql workbench por ejemplo puede crear la base desde un diagrama ER, muy útil.

Cita:
2º Crear el script que recoga todos los datos de la página web. Pretendo hacerlo con Ruby, aunque he leido que Phyton es muy bueno para esto.
El lenguaje que uses no es tan importante ya que existen muuuchas librerías para parsear el DOM. DOM es una estructura de datos tipo Árbol que describe una página, lee sobre el DOM y luego busca una librería para parsearlo en tu lenguaje favorito, esencialmente te van a dar un objeto DOM y a ese le pides hijos y a esos hijos más hijos y así.. por ejemplo:

Código:
html.body.divDatos.form1.inputA.val()

Cita:
3º Guardar esos datos en la base de datos en función a una estructura lógica. Supongo que también con Ruby.
Esto va a depender de tu lenguaje y la base de datos, ya tendrás que investigar como crear la conexión y realizar consultas.

Cita:
4º Coger esos datos y mostrarlos en una página web propia. Me gustaría parsear toda la información pero luego poder mostrar la que yo necesite en cada momento. Esto ya sería una segunda fase. Primero me gustaría poder ver toda la información en una base de datos propia.
Pues esto depende mucho del lenguaje y el entorno de desarrollo que uses, de ruby no sé mucho pero basicamente debes leer sobre DHTML en dicho lenguaje

Espero haber sido de ayuda, si necesitas algo más mándame pm.