Ver Mensaje Individual
  #1 (permalink)  
Antiguo 28/08/2014, 12:28
Avatar de ikaroraul
ikaroraul
 
Fecha de Ingreso: octubre-2006
Ubicación: La Paz
Mensajes: 391
Antigüedad: 18 años, 5 meses
Puntos: 16
Exclamación Problema con PARSEADO y CODIFICACIÓN

Hola que tal a todos:

Bueno tengo el siguiente problema, estoy sacando noticas de una web, con SIMPLE_HTML_DOM, y pues me funciona bien, el problema esta que en la noticia, ciertos "PARRAFOS" no me los codifica bien y otros si, revizando el CODIGO DE LA PAGINA me di de cuenta que dento del DIV de donde saco la noticia, el texto que NO ESTA DENTRO DE UN TAG <p> me lo saca bien, pero cuando esta dentro de un tag <p> ahí es donde ya comienza los problemas, alguien sabe como puedo solucionar esto? pues cuando le coloco un utf8_decode() lo que estaba mal ya sale bien, pero lo que estaba bien ya se ve mal y viceversa. Tambien intente eliminando los <p>, pero el resultado es el mismo.

Bueno les dejo el codigo que utilizo:

Código PHP:
<?php 
include("simple_html_dom.php"); // Clase para parsear contenido
// PARSEADO PARA PAGINA SIETE
$URL 'http://www.paginasiete.bo/nacional/2014/8/28/vice-subsidio-bajara-cero-2016-producir-gasolina-30675.html';
$html file_get_html($URL);

foreach(
$html->find('h1[itemprop=name]') as $element
$TITULO $element->innertext '<br>'; }

$html file_get_html($URL);
foreach(
$html->find('h3[itemprop=description]') as $element
$CONTENIDO_A $element->innertext '<br>'; }


$html->find('div[class=w300]',-1)->innertext '';

foreach(
$html->find('div [id=noticiaint]') as $element

$CONTENIDO_B strip_tags($element->innertext'<p><b><strong><em><i><br><span>') . '<br>'
}


$CONTENIDO $CONTENIDO_A.$CONTENIDO_B;

echo 
$TITULO;
echo 
$CONTENIDO;

$html->clear();
unset(
$html);
?>

Nota: Les dejo una imagen de como se visualiza el texto, los puntos verdes son los acentos buenos, pero los puntos rojos ya son los malos (cuyo texto esta dentro de un tag <p>)

__________________
Msn: [email protected]