ayuda con UTF-8

zarko_84 · #1 (**permalink**) 02/09/2010, 03:37

buenos dias amigos!
tengo un pequeño problema que no se como solucionar, paso a comentarlo:

tengo un programa en python que saca los campos de un xml con codificación uft8, este archivo tiene mas de 70000 lineas asi q seleccione unos casos especiales para la programacion en otro xml mas pequeño tambien en utf8.
pero para poder avanzar he tenido q sustituir los caracteres q no estaban en ASCII ya que me daba un error cada vez q tocaba un caracter de este tipo.

os paso el codigo que creo q tiene q ver con el problema

# -*- coding: utf-8 -*-

import xml.dom.minidom

diccionario = xml.dom.minidom.parse('tanarro2.xml')

terminos = diccionario.getElementsByTagName("termino")

por cierto utilizo el IDE Boa Constructor

espero q me comprendan y puedan ayudarme, xq cambiar el xml me pareceria una tortura!!!!!

Gracias!!!!

razpeitia · #2 (**permalink**) 02/09/2010, 08:40

Te recomiendo BeautifulSoup

Hace que el parseo de xml y html sea algo tan simple.
Ejemplo:

Código Python:

Ver originalfrom BeautifulSoup import BeautifulStoneSoup
xml = """<doc><tag1 x="1">a</tag1><tag1 y="2">b</tag1></doc>
"""
soup = BeautifulStoneSoup(xml)
 
print soup.prettify() #Embellecer
print soup.findAll('tag1') #Lista con etiqueta
print [i.text for i in soup.findAll('tag1')] #Lista de contenido de las tag1
print [i.attrs for i in soup.findAll('tag1')] #Obtener los atributos de las tag1

zarko_84 · #3 (**permalink**) 03/09/2010, 03:59

el problema esq ya tengo todo el codigo hecho y me coge los diferentes campos perfectamente, solo que me falla cuando hay un caracter con acento, la ñ o caracteres del alfabeto griego, tipo alfa beta...

zarko_84 · #4 (**permalink**) 01/10/2010, 03:44

al final solucione el caso, convertia con str(string) y daba error al tener caracteres de utf8, quite esa sentencia y con u'string' esta todo ok!!

REHome · #5 (**permalink**) 04/10/2010, 06:09

Pon en el principio de todo del compilador y en modo texto con #. Si lo metes en otro lado no funcionará.

Código:

#encoding: utf-8

Saludo.