Foros del Web » Programación para mayores de 30 ;) » C/C++ »

Partser de HTML

Estas en el tema de Partser de HTML en el foro de C/C++ en Foros del Web. Hola, soy nuevo en el foro. Soy de Argentina y estoy estudiando Analista de Sistemas en la UBA (Universidad de Buenos Aires). Para una materia ...
  #1 (permalink)  
Antiguo 05/09/2006, 09:07
 
Fecha de Ingreso: septiembre-2006
Ubicación: Argentina
Mensajes: 3
Antigüedad: 18 años, 4 meses
Puntos: 0
Partser de HTML

Hola, soy nuevo en el foro. Soy de Argentina y estoy estudiando Analista de Sistemas en la UBA (Universidad de Buenos Aires). Para una materia necesito hacer un trabajo practico que trata de una construccion de un indice en base a miles de paginas HTML para luego hacer consultas del tipo google.

Lo que estoy buscando es algun "parser de HTML" (en el titulo lo escribi mal) en C o C++. Cual me recomiendan? De donde lo puedo sacar?

Estuve buscando por la web y no encuentro demasiado al respecto y no quiero tener que implementarlo a mano. El parser lo que tiene que hacer es ir leyendo el archivo HTML y devolviendo el texto visible del codigo. Solo el texto visible ya que es el que el buscador debe analizar. Los tags, codigo javascript, y demas, no interesan.

Espero haber sido claro. Y espero puedan ayudarme.
  #2 (permalink)  
Antiguo 05/09/2006, 09:38
Avatar de tunait
Moderadora
 
Fecha de Ingreso: agosto-2001
Ubicación: Terok Nor
Mensajes: 16.805
Antigüedad: 23 años, 4 meses
Puntos: 381
Hola germanrende, bienvenido a los foros

traslado tu pregunta al foro de C/C++

movido desde (x)html

Un saludo
  #3 (permalink)  
Antiguo 05/09/2006, 09:41
Avatar de KnowDemon  
Fecha de Ingreso: julio-2004
Ubicación: Ciudad de México
Mensajes: 544
Antigüedad: 20 años, 5 meses
Puntos: 2
Hola,

Ignoro si te pueda ser de utilidad, pero existe el HTMLTidy, y si no me equivoco su codigo fuente está disponible. En realidad es una herramienta para desarrolladores que tiene como objetivo encontrar errores en el código y corregirlos. Tal vez incluya código fuente que te sea útil.

Otra sea buscar librerías que solo "parseen". Me suena la existencia de librerías para XML, pero debe haber por ahí para HTML, casi sin duda. Sería buena idea buscar en SourceForge.

Personalmente me siento inclinado a pensar que es más sencillo crear un parser que simplemente "extraiga" el texto de la página. Sería simplemente "ignorar" el contenido de las etiquetas, y algunas cosillas por ahí. No sé. Ignoro de que vaya tu tarea.

¡Suerte!
__________________
Mi pequeño espacio en la web: VisiónE
"El cosmos es todo lo que es, todo lo que fue, y todo lo que será alguna vez."
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 18:08.