15/10/2007, 21:28
|
| | Fecha de Ingreso: septiembre-2007
Mensajes: 52
Antigüedad: 17 años, 4 meses Puntos: 2 | |
Re: HTML to XML parser Me parece que depende mucho de qué es exactamente lo que quieres hacer.
¿Qué tipo de información quieres extraer? Algo de esto explicas en tu mensaje (campos <input> y <textarea>), pero ¿cómo exactamente? ¿algunos atributos en particular en el caso de <input>? ¿O todo el nodo completo?
¿Los datos tienen una forma común que no varía? (por ejemplo si extraes datos desde una misma página) ¿O pueden venir de muchas fuentes y con distintas variaciones? (por ejemplo, si sabes que puedes recibir indistintamente <input name=hola>, <input name="hola"> o <input name='hola'> o cosas por ese estilo).
En muchos casos, recurrir a un parser para extraer ciertos trozos de texto de un HTML (o convertir el HTML a XML y luego usar un parser de XML) puede ser un poco exagerado, aunque perfectamente válido por supuesto. Algo así como lo que llaman "matar una mosca con un martillo". Si tienes un martillo a la mano, y una mosca de está molestando, ¿porqué no intentarlo? :).
Si tienes la posibilidad de usar Tidy seguro que no tendrás problemas. Alternativamente te sugeriría que, dependiendo de tus necesidades, consideres usar expresiones regulares o incluso funciones simples de comparación de cadenas para extraer los datos que quieres.
Si necesitas más ayuda, te pediría que nos cuentes un poco más del problema, y quizás nos des un ejemplo de HTML de entrada, y qué es lo que quieres extraer exactamente, así podríamos ayudarte un poco mejor.
Suerte. |