Te cuento alguna experiencia con un proyecto personal similar que te serviría para empezar ... desarrolla (o busca) un script que lea los rss de los sitios web (que lo tengan) y captura la mayor cantidad de información posible de estos... podrías desarrollar un pequeño motor de búsqueda basado en rss ...
esa fue una idea que tuve hace algún tiempo ... la base de datos de mysql que alcancé a tener pesaba casi 10GB ... tenía casi 100000 sitios con sus respectivas entradas de rss, solo era necesario leerlas para obtener millones de paginas con información ... pero por cuestión de costos no pude continuarlo ... era un proyecto personal y estaba usando un servidor dedicado que no podía cubrir totalmente con mi money.
Sin capital dudo que pueda mantener el proyecto.