Extraer HTML de página web

jcxnet · #1 (**permalink**) 08/05/2006, 15:24

Holas a todos, me gustaría saber si existe manera alguna de extraer el HTML de una página web; Tengo un programa en Visual Basic que quisiera pasarlo a PHP, estuve buscando

un poco en la web pero no encontré mucho (casi nada

).
Si alguno tiene o sabe de algún script para hacer esto se lo agradecería

.

mauled · #2 (**permalink**) 08/05/2006, 15:34

Si pudieras explicar cual es la finalidad de extraer html de tu pagina. Se entenderia mas tu problema.

Gracias

digital_700 · #3 (**permalink**) 08/05/2006, 15:44

Igualmente no esta muy claro el por que de extraer html de una pagina...siempre para comentar o pedir ayuda sobre estos temas tienes que ser mas explicito.

saludos

Cluster · #4 (**permalink**) 08/05/2006, 15:47

En PHP eliminar todo lo que quede bajo <....> (que serían "tag's" HTML) lo puedes hacer con la función:

strip_tags()
http://www.php.net/manual/es/function.strip-tags.php

Y como eso te dará problemas con CSS y por ejemplo .. ahí debes usar expresiones regulares. Revisa los mensajes de los usuarios de esa función . .hay ejemplos más complejos para sustituir a esa función.

Un saludo,

jcxnet · #5 (**permalink**) 08/05/2006, 17:45

Lamento mucho no haber sido tan claro, pero lo que necesito es extraer información de ciertas páginas, específicamente son patentes, el extractor lo tengo realizado en visual basic; y deseo pasarlo a php. Básicamente lo que necesito es extraer ciertas partes del contenido de una página; por ejemplo en este link:
http://patft.uspto.gov/netacgi/nph-P...y=PN%2F4419203
Lo que necesito extraer es:
- Abstract
- Inventors
- Assignee
- Filed
- Claims
y luego genero un resumen con todos los datos extraídos.
Espero haber sido claro.