
07/10/2008, 09:15
|
| | Fecha de Ingreso: enero-2007
Mensajes: 78
Antigüedad: 18 años, 1 mes Puntos: 0 | |
Extraer texto archivo HTML Buenas, me gustaría saber si sabeis algún metodo con el cual pueda extraer todos los textos contenidos entre las etiquetas <h1> y <p> de un archivo .html.
Hasta ahora he utilizado un filtro echo por mi "public class Html2Ascii extends FilterInputStream", que va leida dato por dato hasta que encuentra un <h1> o <p> y a partir de este momento retorna lo que tiene su interior, pero es algo lento y dudo de su calidad ya que me deja espacios en blanco en los lugares donde antes habia letras.
Gracias! |