Hola, soy nuevo en el foro. Soy de Argentina y estoy estudiando Analista de Sistemas en la UBA (Universidad de Buenos Aires). Para una materia necesito hacer un trabajo practico que trata de una construccion de un indice en base a miles de paginas HTML para luego hacer consultas del tipo google.
Lo que estoy buscando es algun "parser de HTML" (en el titulo lo escribi mal) en C o C++. Cual me recomiendan? De donde lo puedo sacar?
Estuve buscando por la web y no encuentro demasiado al respecto y no quiero tener que implementarlo a mano. El parser lo que tiene que hacer es ir leyendo el archivo HTML y devolviendo el texto visible del codigo. Solo el texto visible ya que es el que el buscador debe analizar. Los tags, codigo javascript, y demas, no interesan.
Espero haber sido claro. Y espero puedan ayudarme.