Ver Mensaje Individual
  #1 (permalink)  
Antiguo 05/09/2006, 09:07
germanrende
 
Fecha de Ingreso: septiembre-2006
Ubicación: Argentina
Mensajes: 3
Antigüedad: 18 años, 4 meses
Puntos: 0
Partser de HTML

Hola, soy nuevo en el foro. Soy de Argentina y estoy estudiando Analista de Sistemas en la UBA (Universidad de Buenos Aires). Para una materia necesito hacer un trabajo practico que trata de una construccion de un indice en base a miles de paginas HTML para luego hacer consultas del tipo google.

Lo que estoy buscando es algun "parser de HTML" (en el titulo lo escribi mal) en C o C++. Cual me recomiendan? De donde lo puedo sacar?

Estuve buscando por la web y no encuentro demasiado al respecto y no quiero tener que implementarlo a mano. El parser lo que tiene que hacer es ir leyendo el archivo HTML y devolviendo el texto visible del codigo. Solo el texto visible ya que es el que el buscador debe analizar. Los tags, codigo javascript, y demas, no interesan.

Espero haber sido claro. Y espero puedan ayudarme.