Es interesante lo que necesitas. Yo hice un script, pero en Perl, espero que te sirva de algo.
Código:
#!/usr/bin/perl
open(DATA,"google.htm");
@a=<DATA>;
chomp(@a);
foreach $str (@a)
{
if ($str =~ m/<A\s+href="(.*)">(.*)<\/A>/i)
{
print "$1 $2<br>\n";
}
}
close(DATA);
Este codigo basicamente trabaja con
Expresiones Regulares.
En PHP y Javascript, hay funciones que hacen lo mismo.
El unico problema seria (en Javascript) tener todo el contenido del archivo html en un bufer. Por ejemplo,
@a=<DATA>;
Espero haberte ayudado en algo.