Interpretar bloques de etiquetas HTML

valdea · #1 (**permalink**) 19/09/2012, 01:43

Buenas,

tengo que interpretar un texto plano en formato HTML para extraer la información y guardarla en base de datos. Tengo que quedarme con el contenido de una clase concreta y dentro de ella repetir lo mismo para identificar el contenido de sus componenetes. Como ejemplo, necesitaría guardar en SQL una lista de productos con sus precios, extrayendo la información de una página HTML ya generada.

El problema lo tengo en identificar el final de la etiqueta. Os pongo un ejemplo:

<td class="Categoria1">
<img ..... lo que sea....>

<td class="Producto">
Descripcion del producto1
12
</td>

...
<td class="Producto">
Descripcion del producto2
52
</td>
<td class="Producto">
Descripcion del producto3
43
</td>
<td class="Producto">
Descripcion del producto
12
</td>

...


¿Cómo puedo identificar el bloque de texto correspondiente a la clase "Categoria1"?

Buscar el patrón entre "td class="Categoria1" y "</td> no me vale, pues pararía en el primer </td> que encontrara (en el ejemplo, el del primer producto)

¿Es esto posible? ¿Hay algún 'interprete' de HTML en PHP que identifique el final de las etiquetas?

Fierox · #2 (**permalink**) 19/09/2012, 02:09

No se si hay un camino rápido y gratuito para esto pero lo que estas intentando hacer es un crawler.
Lo que en vez de analizar unicamente los enlaces de una web estas buscando elementos concretos dentro de un html.
Actualmente estoy trabajando en un proyecto parecido y de momento la clase que he creado funciona para este propósito bastante bien. No puedo ponerte el code pq es privado y además me costó bastante realzarlo. Estoy buscando, al igual que tu, toda la información que pueda sobre el tema para asi poder terminar con el proyecto gracias por el tema.

valdea · #3 (**permalink**) 19/09/2012, 04:25

Cita:

Iniciado por Fierox

estas buscando elementos concretos dentro de un html.

Justo, eso es lo que busco.

Entiendo que no me puedas facilitar el código, pero te agradecería que compartieras con todos nostros los links de información al respecto de los crawler que tú hayas identificado o filtrado como válidas para este trabajo.

Claro está que me puedo poner a buscar en Google como hiciste tú, pero si ya tienes documentación de referencia filtrada nos ahorrarías mucho trabajo a los demás.

Muchas gracias

Fierox · #4 (**permalink**) 19/09/2012, 04:55

Ahora que pienso hay por ahi un parseador de html en php ke puede ke te sea de utilidad. Yo intente impelmentarlo pero no me llego a convencer.
http://simplehtmldom.sourceforge.net/

valdea · #5 (**permalink**) 19/09/2012, 05:22

Gracias, le echaré un vistazo.

Si alguien más puede aportar algo, se lo agradeceré.

Fierox · #6 (**permalink**) 19/09/2012, 07:30

siempre puedes intentar hacerlo por ti mismo como hice yo. Basicamente es buscar substring.