Ver Mensaje Individual
  #2 (permalink)  
Antiguo 07/12/2014, 04:29
Avatar de Profesor_Falken
Profesor_Falken
 
Fecha de Ingreso: agosto-2014
Ubicación: Mountain View
Mensajes: 1.323
Antigüedad: 10 años, 3 meses
Puntos: 182
Respuesta: lector de codigo html

Buenas,

Tan sencillo como abrir un socket cliente al puerto 80 a forosdelweb.com y enviarle la cadena "GET /index.html HTTP/1.1". El servidor te devolverá el código HTML.

Si no quieres hacerlo a bajo nivel con sockets, te basta con utilizar la clase URL. Son 4 lineas de código:

Código Java:
Ver original
  1. public static void main(String[] args) throws Exception {
  2.         URL url = new URL("http://www.forosdelweb.com/");
  3.         InputStream is = url.openStream();
  4.         BufferedReader br = new BufferedReader(new InputStreamReader(is));
  5.         String line;
  6.  
  7.         while ((line = br.readLine()) != null) {
  8.             System.out.println(line);
  9.         }
  10.     }


Si, como supongo, lo que en realidad quieres es hacer algo más complejo que comporte técnicas de webscraping, te recomiento la librería JSoup. http://jsoup.org/.

Un saludo
__________________
If to err is human, then programmers are the most human of us