buenas...
quizás esto no sea lo que busques pero eventualmente luego querás hacer tus documentos válidos con el estándar. al menos en lo que concierne a html (no html5) y xhtml, suelo mirar mucho el DTD. esto me ahorra bastante tiempo al momento de validar y buscar errores. por supuesto, necesitarás entender la sintaxis y formato de
DTD para poder analizar estos documentos. por ejemplo, el DTD de html 4.01 Strict,
http://www.w3.org/TR/html4/strict.dtd.