Reconocer etiquetas HTML

zenya · #1 (**permalink**) 19/03/2008, 11:11

Necesito saber como puedo obtener las palabras resaltadas en un documento HTML, por ejemplo, todas las palabras que están en negrita.

Saludos

Raulmmmm · #2 (**permalink**) 19/03/2008, 12:15

Eso se hace con PHP y expresiones regulares:
http://www.desarrolloweb.com/articulos/2033.php

ElJavista · #3 (**permalink**) 19/03/2008, 12:18

No estoy seguro si es que esto es lo que necesitas pero eso se puede hacer mediante el DOM usando JavaScript. De este modo:

<script language="JavaScript">
var bs = document.getElementByTagName("b");

for (ele in bs) {
txt = ele.innerHTML // Esto es criticado por muchos así que la alternativa está abajo.
txt = ele.firstChild.nodevalue;
}

A lo mejor quieres usar esos valores para trabajarlos con php, en ese caso lo más recomendable es usar ajax.

</script>

zenya · #4 (**permalink**) 19/03/2008, 19:33

Gracias, me han dado una idea para empezar a trabjar...
Me han comentado que Perl también es muy bueno en el tratamiento de textos y muy potente en expresiones regulares....
Necesito sugerencias de buena documentación sobre esto.

webosiris · #5 (**permalink**) 19/03/2008, 20:18

dime que lenguaje dominas para así muevo este mensaje al foro correspondiente

zenya · #6 (**permalink**) 19/03/2008, 21:33

Me interesa Perl, gracias.

aloqui · #7 (**permalink**) 20/03/2008, 05:07

Para perl puedes utilizar la libreria HTML::TreeBuilder
Necesitarás hacer algo así:

use HTML::TreeBuilder;
my $tree = HTML::TreeBuilder->new_from_file ( $file );
my @nodosB = ( $tree->look_down( "_tag", "b" ) );
my @nodosS = ( $tree->look_down( "_tag", "strong" ) );

zenya · #8 (**permalink**) 24/03/2008, 12:58

Muchas gracias a todos...

monoswim · #9 (**permalink**) 24/03/2008, 14:31

También se puede hacer con expresioner regulares...Sería algo así...

my @b = $html =~ m/<b>(.*?)<\/b>/g;

Pero sería más engorroso, puedes tener problemas con los saltos de línea y demás, mejor con el módulo HTML::TreeBuilder como te lo mostraron...

zenya · #10 (**permalink**) 26/03/2008, 15:46

Alguien me puede decir como puedo delimitar las oraciones en un texto, teniendo en cuenta que se me pueden presentar casos como :

Lázara M. López Acea, miembro.......

donde como ven un punto no signifuca el fin de la oracion
Si alguen me puede dar una idea

Gracias

jferrero · #11 (**permalink**) 27/03/2008, 02:31

Deberías usar el módulo Lingua::ES::Sentence, pero lo malo es que ese módulo no existe (todavía).

Lo más parecido es el módulo Text::Sentence, pero en la documentación indica que fallará con los acrónimos y abreviaturas.

Prueba a usar el módulo Lingua::EN::Sentence, que es más parecido a nuestro idioma y además podrás indicar las abreviaturas que tiene que identificar.

zenya · #12 (**permalink**) 29/03/2008, 07:56

Muchas gracias de nuevo....
Saludos