Buenas, tengo que hacer una especie de buscador web que cuente las veces que sale una palabra en X sitios web (donde X es un valor que ronda los 100.000).
Por lo que he leido Lucene puede ser la mejor opción para implementar la busqueda y concretame su versión java, ya que por lo que parece es la versión mas efectiva. Pero me surgen algunas dudas sobre la API Lucene, ya que no me acaba de quedar claro si tan solo es capaz de buscar en un documento previamente almacenado o si tiene funciones de buscador web y de indexado por si misma. En caso que no tubiese opciones web habia pensado en utilizar un programa de crawling y posteriormente realizar la busqueda.
Bueno pues a ver si alguien me puede hechar un cable respecto a fuentes de información o simplemente darme alguna alternativa.
Muchas gracias.