Hace unos dias estuve viendo justamente una clase en PEAR que parsear el contenido de un archivo HTML (aunque tmb XML). Quizas pueda serte util:
http://pear.php.net/package/XML_HTMLSax
Nunca lo use, pero estuve experimentando con unos ejemplos que trae y se ve bastante bien.
Pero te advierto que si no cuentas con el permiso correspondiente para "tomar" el contenido de la pagina HTML el asunto se vuelve un tanto ilegal!
Suerte y saludos!