Sobre lo primero, puedes usar algun parser, como este por ejemplo:
http://www.cimarronravine.com/products/ParseHTML/
lastimosamente es pago.
Es mas sencillo y barato es manejarte con cadenas.
Lo de los acentos tiene que ver con la codificacion... aqui se discute el problema y pegan algo de codigo:
http://dbforums.com/arch/195/2003/2/676676