Robot web con curl

BoKeRoN18 · #1 (**permalink**) 20/01/2012, 05:26

hola a todos,

Estoy intentando crear un robot web con curl.

Y mi pregunta es la siguiente:

Como consigo que el robot vaya copiando todas las webs a las que va accediendo. Me explico:

Yo le paso una url en el principio, esta url lleva a una pagina con un formulario, el cual ingreso gracias a la funcion

curl_setopt($handler, CURLOPT_POSTFIELDS, $datos_acceso);

y mantengo las cookies con las funciones

curl_setopt($handler, CURLOPT_COOKIEFILE, $cookie_file);
curl_setopt($handler, CURLOPT_COOKIEJAR, $cookie_file);
curl_setopt($handler, CURLOPT_FILE, $fp);

pero aqui viene mi duda y esque una vez el robot se identifica (deberia ser redireccionado a la pagina interna) como hago para copiar esa pagina interna? es decir, tendria que crear otro recurso curl_init() con la pagina interna o habria alguna manera de que el robot la consiga directamente?

un saludo y espero que se me entienda

gildus · #2 (**permalink**) 20/01/2012, 22:23

Holas,

Podrias hacer un:

Código PHP:

Ver original$code = curl_getinfo($handler, CURLINFO_HTTP_CODE);

dentro de un bucle y si $code = 301 o 302 (se redirecciona) entonces nuevamente obtienes la url:

Código PHP:

Ver originalcurl_setopt($handler, CURLOPT_URL, $url);
$header = curl_exec($handler);
...
preg_match('/Location:(.*?)\n/', $header, $matches);
$url = trim(array_pop($matches));
....

Si ya no tienes 301 o 302 pues sales del bucle y ya tienes la url final:

Código PHP:

Ver originalcurl_setopt($handler, CURLOPT_URL,$url);

Saludos