Foros del Web - Ver Mensaje Individual - Comprobando tamaño de un archivo antes de generarlo

alca87 · #7 (**permalink**) 11/11/2009, 07:31

Jeje, te explico, no es tan facil como a primera vista parece. Te pego un trozo de la wikipedia en referencia al UTF-8, para que entiendas que no se pueden eliminar todos los caracteres que ocupen mas de 1byte:

Cita:

* Caracteres codificados con un byte: Los incluidos en US-ASCII, un total de 128 caracteres.
* Caracteres codificados con dos bytes: Un total de 1920 caracteres. Este grupo incluye los caracteres latinos más signos diacríticos, y los alfabetos griego, cirílico, copto, armenio, hebreo, árabe, siríaco y Thaana entre otros.
* Caracteres codificados con tres bytes: Caracteres del Plano básico multilingüe de Unicode, que unido al grupo anterior, incluye la práctica totalidad de caracteres de uso común, entre ellos los caracteres del grupo CJK: Chino, japonés y coreano.
* Caracteres codificados con cuatro bytes: Caracteres del plano suplementario multilingüe. Símbolos matemáticos y alfabetos clásicos para uso principalmente académico: Lineal B silábico e ideográfico, alfabeto persa, fenicio... Y el plano suplementario ideográfico: caracteres Han de uso poco común.

No puedo poner links, pero lo encontrarás buscando utf-8 en la wikipedia española. Como verás, hay una cantidad bastante considerable de caracteres de mas de un byte. Un saludo.