Google utiliza los datos de Dmoz, para ello se sirve de los datos RDF (Resource Description Framework). Estos datos se actualizan periódicamente. Por eso Google siempre tiene un desfase de datos entre dmoz (siempre hay menos webs indexadas), ya que tiene que ir actualizando los datos del RDF.
Aquí teneis más información:
http://rdf.dmoz.org/