Un recurso interesante el que provee la gente de
Duplicate Content
No sólo compara contenido textual, analiza el grado de similitud en cabeceras y estructuras HTML.
En mi ejemplo utilicé 2 sitios basados en WordPress; he ahí la tendencia de los primeros 2 items. Pero, finalmente, el contenido dista mucho de ser—siquiera—similar.