hola.
Por una aplicación que estoy haciendo, no importa el lenguaje, necesito detectar si ha cambiado el CONTENIDO una pagina web, por ejemplo si es un blog y hay nuevos comentarios, o un foro como este.
El cambio pudo haber sido con respecto hace una hora, 1 semana o lo que sea.
Les recuerdo que me interesa el contenido.
El problema que tengo es que las publicidades son muy fluctuantes, o sea que una simple comparacion caracter a caracter no sirve.
Una opción mejor que pense es comparar unicamente los tags P, H1,H2,H3,H4
Pero he visto publicidades usar tags P
Pense en:
- usar controles tipo CRC y contar la cantidad de caracteres dentro de dichos tags.
- contar la cantidad de veces que aparece cada tag
entonces considerar que se modificó cuando cambio ambas cosas.
¿alguien tiene una idea mejor?
saludos y muchas gracias
Fernando(kokorini)