Problemas con acentos,ñ, tildes etc, letra por letra ...

Dave_27 · #1 (**permalink**) 16/07/2013, 11:38

Buen día foreros ... vengo a ustedes ya que tengo un problema que me trae loco, os explico ...

eh creado un archivo.php con las siguientes lineas de código:

<?php
header("Content-Type: text/html;charset=utf-8");
$prueba = "México";
?>

<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title></title>
</head>
<body>
<?php
echo "Palabra normal: ".$prueba."<br/>";
echo "Letra normal: ".$prueba[2]."<br/>";
echo "Con utf8_encode: ".utf8_encode($prueba)."<br/>";
echo "Con utf8_decode: ".utf8_decode($prueba)."<br/>";
?>
</body>
</html>

muy sencillo no?, como pueden observar todo el documento esta creado con cotejamiento utf8, el problema ocurre cuando quiero tomar de la palabra "México" la letra "é" en teoría debería de mostrarme la letra "é" en la segunda impresión de mi documento, sin embargo me muestra un caracter raro.

La impresión sale así:

Palabra normal: México
Letra normal: �
Con utf8_encode: MÃ©xico
Con utf8_decode: M�xico

espero haberme explicado y que me puedan ayudar para saber como lograr que aparezca la letra "é" como debería de ser, otro dato importante es que si agrego cualquier otra letra con acento o ñ, pasa exactamente lo mismo y si utilizo el utf8-encode la letra me la pone con el mismo valor de "Ã©" ...

Gracias desde ya .. saludos..

skiper0125 · #2 (**permalink**) 16/07/2013, 13:14

Hola que tal.

Puedes utilizar esta función htmlentities( )

Código PHP:

   
$palabra = 'México';

 
echo htmlentities( $palabra );

 
//  México

Saludos

pzin · #3 (**permalink**) 16/07/2013, 13:17

Cita:

Iniciado por Dave_27

como pueden observar todo el documento esta creado con cotejamiento utf8

En realidad no lo podemos observar. Tienes que guardar el archivo con esa codificación con tu editor de texto.

Dave_27 · #4 (**permalink**) 16/07/2013, 14:59

Gracias por su respuesta ... skiper0125 el htmlentities no me funciono ya que la palabra México sale impresa de la misma manera que usando el utf8_encode .. además recuerda que yo solo necesito la letra con el acento ..

pzin .. guarde en el editor con el utf8 el mismo código y el problema sigue, subo una imagen para que se aprecie mejor ..

Como dato adicional: estoy haciendo un pequeño script para reemplazar acentos y ñ, sin embargo cada que lo reemplaza me lo cambia por una A ya que el script interpreta el acento de cualquier letra y ñ con este caracter "Ã©" por ende lo reemplaza por una A ..

Saludos ..

Pongo el link directo, por si no se mira la imagen ... http://www.subirimagenes.com/otros-img-8540771.html

CesarHC · #5 (**permalink**) 16/07/2013, 16:10

Haber prueba asi:

Código PHP:

Ver original<!DOCTYPE html>
<html>
<head>
<meta charset=UTF-8">
<title></title>
</head>
<body>
<?php
$prueba = "México";
echo "Palabra normal: ".$prueba."<br/>";
echo "Letra normal: ".$prueba[1]."<br/>";
echo "Con utf8_encode: ".utf8_encode($prueba)."<br/>";
echo "Con utf8_decode: ".utf8_decode($prueba)."<br/>";
?>
</body>
</html>

En tu codigo esto esta de mas:

Código HTML:

Ver original<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

Debes tenerlo asi:

Código HTML:

Ver original<meta charset=UTF-8">

Dave_27 · #6 (**permalink**) 17/07/2013, 10:25

Cita:

Iniciado por CesarHC

Haber prueba asi:

Código PHP:

Ver original<!DOCTYPE html>
<html>
<head>
<meta charset=UTF-8">
<title></title>
</head>
<body>
<?php
$prueba = "México";
echo "Palabra normal: ".$prueba."<br/>";
echo "Letra normal: ".$prueba[1]."<br/>";
echo "Con utf8_encode: ".utf8_encode($prueba)."<br/>";
echo "Con utf8_decode: ".utf8_decode($prueba)."<br/>";
?>
</body>
</html>

En tu codigo esto esta de mas:

Código HTML:

Ver original<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

Debes tenerlo asi:

Código HTML:

Ver original<meta charset=UTF-8">

Gracias por la respuesta CesarHC... te comento mi experiencia ...

hice un copy paste de tu código y lo reemplace con el mio, en primera instancia me funciono perfecto para lo que requiero obtuve la "é" con el acento, sin embargo todo el texto directo html que escribo con acentos o ñ, me aparecen caracteres raros, pensé, tal ves se modifico el cotejamiento del archivo y cree de nuevo el archivo con el catejamiento utf8, guarde y al momento de refrescar mire y la impresión de los datos me salio como antes de meter tu código, otro dato importante que descubrí es que si almaceno en una variable solo la letra "é" y la imprimo me la imprime bien, pero si pongo el offset cero de esa variable ya me aparece el caracter raro ...

No se que hacer estoy apunto del colapso .. !!

CesarHC · #7 (**permalink**) 17/07/2013, 11:09

Pues que raro ese codigo deberia funcionar correctamente,salvo que envies los datos a esta pagina desde otra con una codificacion diferente,prueba trabajar con el encode que devuelve correctamente los datos:

Código PHP:

Ver original<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title></title>
</head>
<body>
<?php
$prueba = "¡¢£¤¥¦§¨©ª«¬®¯áéíóúñÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÑñÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞß";
echo "Palabra normal: ".$prueba."<br/>";
echo "Letra normal: ".$prueba[1]."<br/>";
echo "Con utf8_encode: ".utf8_encode($prueba)."<br/>";
echo "Con utf8_decode: ".utf8_decode($prueba)."<br/>";
?>
</body>
</html>

Sirrohan · #8 (**permalink**) 17/07/2013, 11:39

Tienes tres opciones:

Primera:
Con tu editor de texto, guarda el archivo con codificación "UTF-8" o "ISO-8859-1".

Segunda:

Código PHP:

Ver originalecho "Con utf8_encode: ".utf8_encode($prueba)."<br/>";
echo "Con utf8_decode: ".utf8_decode($prueba)."<br/>";

Tercera:
Vas al navegador de tu preferencia, en mi caso uso Firefox:
Ver -> Codificación de Caracteres -> UTF-8 / ISO-8859-1

HackmanC · #9 (**permalink**) 17/07/2013, 19:24

Cita:

Iniciado por Dave_27

.. espero haberme explicado y que me puedan ayudar para saber como lograr que aparezca la letra "é" como debería de ser, otro dato importante es que si agrego cualquier otra letra con acento o ñ, pasa exactamente lo mismo y si utilizo el utf8-encode la letra me la pone con el mismo valor de "Ã©" ...

En tu caso te aconsejo que uses ISO-8859-1 o ANSI a la hora de guardar el archivo y en los headers del documento HTML. El motivo es simple, prueba a crear el siguiente documento con UTF-8 y pruebalo; seguidamente prueba a guardar el mismo documento en ISO-8859-1 y has la misma prueba.

Código PHP:

Ver original<?php
$a = 'México';
echo strlen($a);
?>

Si hiciste las pruebas correctamente, para ISO-8859-1 el resultado será 6, y para UTF-8 será 7. ¿Porqué la función strlen devuelve 7 cuando el documento está en UTF-8? Porque la letra é ocupa dos espacios (técnicamente usa dos bytes y las demás letras un solo byte en las dos codificaciones), adicionalmente que la base del lenguaje PHP no está diseñada para UTF-8.

Al momento que realizas $a[1] solamente estás pidiendo un solo byte y por consiguiente no va a funcionar como esperabas si el documento no está en ISO-8859-1, donde no hay letras de dos espacios o bytes.

Cita:

Iniciado por pzin

En realidad no lo podemos observar. Tienes que guardar el archivo con esa codificación con tu editor de texto.

Técnicamente si lo podemos observar pero tomaría tiempo estar probando los resultados que obtuvo, aunque claramente se observa que cuando realizo un utf_encode le devolvió dos bytes. Así a ojo de buen cubero podría decir que el documento está almacenado en ISO-8859-1 pero tiene el header UTF-8, en otras palabras incorrectamente, aunque puedo estar equivocado por que no hice las pruebas correspondientes.

Cita:

Iniciado por Dave_27

... otro dato importante que descubrí es que si almaceno en una variable solo la letra "é" y la imprimo me la imprime bien, pero si pongo el offset cero de esa variable ya me aparece el caracter raro ...

Si no tienes experiencia con que es un byte, asegurate de usar ISO-8859-1 y olvidate de estar convirtiendo entre ISO-8859-1 y UTF-8. Adicionalmente muchos programas dicen que guardan los documentos en ISO cuando realmente no lo 'convierten', copiar y pegar es el ejemplo clásico de mezclar en un solo documento dos codificaciones diferentes.

Cita:

Iniciado por Sirrohan

...
Primera:
Con tu editor de texto, guarda el archivo con codificación "UTF-8" o "ISO-8859-1".

Segunda:

Código PHP:

Ver originalecho "Con utf8_encode: ".utf8_encode($prueba)."<br/>";
echo "Con utf8_decode: ".utf8_decode($prueba)."<br/>";

Para lo que quiere hacer solamente le vale ISO. La $prueba[1] en UTF-8 siempre va a devolver un byte y por lo tanto no lo va a mostrar bien sea como sea. A menos que use $prueba = utf8_decode($prueba); entronces en $prueba va a tener la codificación ANSI y allí si puede usar $prueba[1].

En resúmen cuando quieras hacer expresiones regulares, cambiar letras por otras o extraer letras de un String, usa ISO para no complicarte la existencia, a menos que seas un experto en codificaciones de caracteres y su interpretación de bytes.

Saludos,

Triby · #10 (**permalink**) 17/07/2013, 19:30

Todo lo que ha dicho HackmanC es correcto, pero, realmente tienes dos opciones:

1- Usar codificación en iso-8859-1 y no tendrás problemas con strlen() ni recorriendo caracter por caracter
2- Usar codificación utf-8 (o cualquier otra multibyte) y las funciones adecuadas: http://www.php.net/manual/es/ref.mbstring.php

Entonces, para saber la longitud de una cadena en utf-8 debes usar mb_strlen() y para recorrer caracter por caracter tendrías que hacer algo como:

Código PHP:

Ver original$str = "México";
$len = mb_strlen($str,'UTF-8');
 
for($i=0;$i<$len;++$i) {
    echo mb_substr($str, $i, 1, 'UTF-8')."<br/>";
}