Foros del Web - Ver Mensaje Individual - Parseando XHTML con Expresiones regulares [Ayuda]

thepancher · #1 (**permalink**) 28/09/2009, 14:38

Hola que tal, miren... Ando buscando la forma de analizar archivos xhtml. Y quiero saber si alguien me puede ayudar...

Lo que necesito lograr es extraer los tags de uns archivo xhtml a un array de la siguiente forma... Por ej.

Si el xhtml fuese asi:

Código html:

Ver original<html>
        <head>
                <title>XHTML</title>
        </head>
        <body>
                <p class="neat">Lorem ipsum dolor sit amet... </p>
        </body>
</html>

yo necesitaria armar una array que me de la siguiente info. tomo como ejemplo el tag p

Código php:

Ver originalarray (
        [5] => array(
                [tag] => "p",
                [attributes] => " class=\"neat\"",
                [value] => "Lorem ipsum dolor sit amet... ",
                [depth] => "2"
        )
)

para hacer mas simple la explicacion... sme conformo solo con saber como extraer tal info.

estve usando una funcion en la cual utilizo la siguiente expresion regular:

Código php:

Ver original$pattern = '/\<([a-z0-9\-]+)([^\>]+)?\>((.*)\<\/\1\>)?/';

entonces en la function lo q hago es pasar el/los array(s) por referencia utilizando preg_match_all() algo asi:

Código php:

Ver originalfunction parse($xhtml, &$array, $depth = 0)
{
        preg_match_all($pattern, $xhtml, $matches);
        
        // con un loop ubico la info de $matches (array_push()) en el array... etc.
        for ($i = 0; $i < count($matches[0]; $i++)) {
                $array[$i]['tag'] = $matches[1][$i];
                $array[$i]['attributes'] = $matches[2][$i];
                $array[$i]['value'] = $matches[4][$i];
                $array[$i]['depth'] = $depth;
        }
        // y repito la funcion pasandole $xhtml = $matches[4][$i] que si se fijan
        // en la regexp. el subpatron 4 seria el valor del tag y depth sumandole uno
        // ya que marca la profundidad... ej el depth del tag html es 0, el de head
        // y el body es 1, ya que estan dentro del tag html, title y p serian 3, etc.
        parse($matches[4], $array, $depth + 1);
}

he aqui el problem:
supongamos q tenemos un xhtml donde usaron un trukito css para ponerle esquinas redondeadas a un div...

Código html:

Ver original<html>
        <head>
                <title>XHTML</title>
        </head>
        <body>
                <div id="container">
                        <div id="c1"></div>
                        <div id="c2"></div>
                        <div id="c3"></div>
                        <div id="c4"></div>
                        <p class="neat">Lorem ipsum dolor sit amet... </p>
                </div>
        </body>
</html>

se llega a obtener muy buenos resultados, pero cuando queremos parsear el valor del <div id="container"> bienen los problemas...

ya que como valor del <div id="c1"> que tendria que ser nulo o sea "", me da este valor:

Código html:

Ver original</div>
                        <div id="c2"></div>
                        <div id="c3"></div>
                        <div id="c4">

ya que toma como cierre de la divison el de id="c4"... y si cambio el subpatron 4 del a reg exp. haciendo "ungreedy" como se dice jeje, que quedaria... "... (.*?) ..."

tra problemas al parsear el div id="container" y que como valor del container traeria lo siguiente:

Código html:

Ver original<div id="c1">

ya que me toma como cierre el primer div... y como los divs se usan muchos en los XHTML, uno dentro de otros, creo que seria imposible analizar uno...

probe haciendo un if dentro de la reg exp. pero cuando se solucion un problem, surge otro xD

a ver si alguien me puede ayudar?

Saludos!

PD: Por favor, si me van a contestar algo como "porque no usas DOM?" o algo asi, directamente no respondan xD ya se que exsite DOM y facilitaria las cosas, pero yo quiero encontrarle la vuelta si o si mas o menos de la forma que digo, con regexps. desde ya, gracias a todos