Necesito saber como puedo obtener las palabras resaltadas en un documento HTML, por ejemplo, todas las palabras que están en negrita.
Saludos
| ||||
Re: Reconocer etiquetas HTML Eso se hace con PHP y expresiones regulares: http://www.desarrolloweb.com/articulos/2033.php |
| |||
Re: Reconocer etiquetas HTML Gracias, me han dado una idea para empezar a trabjar... Me han comentado que Perl también es muy bueno en el tratamiento de textos y muy potente en expresiones regulares.... Necesito sugerencias de buena documentación sobre esto. |
| ||||
Re: Reconocer etiquetas HTML Para perl puedes utilizar la libreria HTML::TreeBuilder Necesitarás hacer algo así: use HTML::TreeBuilder; my $tree = HTML::TreeBuilder->new_from_file ( $file ); my @nodosB = ( $tree->look_down( "_tag", "b" ) ); my @nodosS = ( $tree->look_down( "_tag", "strong" ) ); |
| ||||
Re: Reconocer etiquetas HTML También se puede hacer con expresioner regulares...Sería algo así... my @b = $html =~ m/<b>(.*?)<\/b>/g; Pero sería más engorroso, puedes tener problemas con los saltos de línea y demás, mejor con el módulo HTML::TreeBuilder como te lo mostraron...
__________________ Esteban Quintana |
| |||
Re: Reconocer etiquetas HTML Alguien me puede decir como puedo delimitar las oraciones en un texto, teniendo en cuenta que se me pueden presentar casos como : Lázara M. López Acea, miembro....... donde como ven un punto no signifuca el fin de la oracion Si alguen me puede dar una idea Gracias |
| |||
Re: Reconocer etiquetas HTML Deberías usar el módulo Lingua::ES::Sentence, pero lo malo es que ese módulo no existe (todavía). Lo más parecido es el módulo Text::Sentence, pero en la documentación indica que fallará con los acrónimos y abreviaturas. Prueba a usar el módulo Lingua::EN::Sentence, que es más parecido a nuestro idioma y además podrás indicar las abreviaturas que tiene que identificar. |