Ver Mensaje Individual
  #1 (permalink)  
Antiguo 07/10/2008, 09:15
Belzebu
 
Fecha de Ingreso: enero-2007
Mensajes: 78
Antigüedad: 18 años, 1 mes
Puntos: 0
Extraer texto archivo HTML

Buenas, me gustaría saber si sabeis algún metodo con el cual pueda extraer todos los textos contenidos entre las etiquetas <h1> y <p> de un archivo .html.

Hasta ahora he utilizado un filtro echo por mi "public class Html2Ascii extends FilterInputStream", que va leida dato por dato hasta que encuentra un <h1> o <p> y a partir de este momento retorna lo que tiene su interior, pero es algo lento y dudo de su calidad ya que me deja espacios en blanco en los lugares donde antes habia letras.

Gracias!