Ver Mensaje Individual
  #1 (permalink)  
Antiguo 25/02/2013, 05:27
angelo087
 
Fecha de Ingreso: marzo-2010
Mensajes: 29
Antigüedad: 14 años, 9 meses
Puntos: 1
Obtener código HTML

Hola a todos.

En primer lugar disculpen si se tratara de un tema repetido, pero no lo he encontrado y ando desesperado por solventar este problema.

Necesito conectarme a través de Java a unas páginas webs y obtener su código HTML. La primera vez que lo intenté me salió un error 403, concretamente este:

Server returned HTTP response code: 403 for URL .....

y pude solventarlo de la siguiente manera:

Código Java:
Ver original
  1. URL web = new URL("http://scholar.google.es/scholar?hl=es&q=spem+and+metadata&btnG=&lr=lang_es|lang_en&num=20");
  2.  
  3. HttpURLConnection url = (HttpURLConnection) url2.openConnection();
  4. url.addRequestProperty("User-Agent", "Mozilla/4.76");
  5. InputStream s = url.getInputStream();
  6. BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(s));
  7. //a partir de aqui meto el contenido en un fichero
Sin embargo, ahora con otra web no puedo realizar este proceso, me sale otra vez la misma excepción de antes. He leido y probado a establecer otras propiedades pero insisto en que no tengo mucha idea de este tema de conectarse a alguna web por medio de Java.

La página de la que quiero acceder ahora mismo el código es esta:

http://scholar.google.es/scholar.bib?q=info:DoH5NwEXgWAJ:scholar.google.com/&output=citation&hl=es&as_sdt=0,5&ct=citation&c d=0

(sin espacios...que no se por qué no me deja quitar dicho espacio)

Espero alguna respuesta...gracias de antemano.

Última edición por angelo087; 25/02/2013 a las 05:34