[APORTE] file_get_contents(), cURL, HTTP_Request

leeja · #91 (**permalink**) 21/03/2012, 16:38

Estimado, yo necesito buscar un contenido en una pagina externa, estoy usando la funcion fopen, y no tengo problemas cuando lo hago a través de la red de mi casa, pero desde la red de la empresa tengo problemas, y pienso que es por que se necesita un usuario y password para conectarse a internet a través del proxy.

que me recomiendas.

Saludos

GatorV · #92 (**permalink**) 21/03/2012, 17:18

stream_context_create te permite especificar un Proxy:

http://www.php.net/manual/en/context.http.php

De lo contrario tienes que usar cURL.

Saludos.

GatorV · #93 (**permalink**) 21/03/2012, 17:20

Ejemplo:

Código PHP:

Ver original<?php
$opts = array('http' => array('proxy' => 'tcp://127.0.0.1:8080', 'request_fulluri' => true));
$context = stream_context_create($opts);
$fp = fopen('http://www.example.com', 'r', false, $context);

Saludos.

xcars · #94 (**permalink**) 23/03/2012, 23:53

Excelente aporte!!!.

Yo tengo un tema, tengo una pagina web la cual para evitar que un bot haga login, coloco un valor aleatorio en un campo hidden, ahora bien, estoy trabajando en otra aplicacion que necesito y se loguee a la web primera usando cURL y pues no logro la manera de realizar la conexion, obtener el valor del campo hidden y luego hacer el POST con cURL, ya intente varias formas y ninguna sin resultado, ya que cada llamada a la pagina genera un numero aleatorio diferente, que creen uds. que pueda hacer, que no sea cambiar la pagina ejeej.
Gracias por sus respuestas.

abimaelrc · #95 (**permalink**) 18/04/2012, 08:41

Cita:

Iniciado por xcars

Excelente aporte!!!.

Yo tengo un tema, tengo una pagina web la cual para evitar que un bot haga login, coloco un valor aleatorio en un campo hidden, ahora bien, estoy trabajando en otra aplicacion que necesito y se loguee a la web primera usando cURL y pues no logro la manera de realizar la conexion, obtener el valor del campo hidden y luego hacer el POST con cURL, ya intente varias formas y ninguna sin resultado, ya que cada llamada a la pagina genera un numero aleatorio diferente, que creen uds. que pueda hacer, que no sea cambiar la pagina ejeej.
Gracias por sus respuestas.

No me había fijado de que habían preguntado

, Para eso creaste ese sistema para que no sea por bot, podrías en vez de entrar por esa página crearte algún sistema que autentique con algún valor que solo tu sabes y por ahí conectarte hacer lo que desees.

xcars · #96 (**permalink**) 18/04/2012, 09:12

Lo logre resolver con javascript fue algo complicado, y no funciona como queria pero me resuelve, gracias por su respuesta

Cita:

Iniciado por abimaelrc

No me había fijado de que habían preguntado

, Para eso creaste ese sistema para que no sea por bot, podrías en vez de entrar por esa página crearte algún sistema que autentique con algún valor que solo tu sabes y por ahí conectarte hacer lo que desees.

manuel__7 · #97 (**permalink**) 23/05/2012, 15:42

Cita:

Iniciado por abimaelrc

Para poder manipular los links de lo que hayamos obtenido usando cualquiera de los metodos mencionados podemos usar este codigo. En este caso usaré file_get_contents()

Código PHP:

Ver original<?php
$html = file_get_contents('http://www.example.com/');
function extract_links($html) {
    $links = array();
    preg_match_all('/<a\s+.*?href=[\"\']?([^\"\' >]*)[\"\']?[^>]*>(.*?)<\/a>/i', $html,$matches,PREG_SET_ORDER);
    foreach($matches as $match) {
        $links[] = array($match[1],$match[2]);
    }
    return $links;
}
$links = extract_links($html);
foreach ($links as $link) {
    echo $link[0] . PHP_EOL;
}
?>

Para bajar un archivo usando cURL se puede lograr de esta forma

Código PHP:

Ver original<?php
$url = 'http://www.example.com/hola.zip'; 
  
$g=basename($url); 
 
if(!is_file($g)){
    $fp=fopen ($g, "w");
 
    $ch=curl_init($url);
    curl_setopt ($ch,CURLOPT_FILE, $fp);
    curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,60);
    curl_exec ($ch);
    curl_close ($ch);
 
    fclose($fp); 
}

Para bajar un archivo usando file_get_contents se puede lograr de esta forma

Código PHP:

Ver original<?php
$url = "http://www.example.com/zip.zip";
$g=basename($url);
$content = file_get_contents($url);
file_put_contents($g,$content);

Para leer un sitio web que verifica si es un navegador o no el que trata de ver la página web y solo despliega la información si es un navegador el que visita el sitio, puedes tratar el siguiente código

file_get_contents

Código PHP:

Ver original<?php
$options = array('http' => 
    array( 'header' => 'User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; es-ES; rv:1.9.0.6) Gecko/2009011913 Firefox/3.0.6' . PHP_EOL ) 
); 
$context = stream_context_create($options);
$page = file_get_contents('http://www.example.com', false, $context);
echo $page;

cURL

Código PHP:

Ver original<?php
$ch = curl_init();
curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows; U; Windows NT 5.1; es-ES; rv:1.9.0.6) Gecko/2009011913 Firefox/3.0.6');
curl_setopt($ch, CURLOPT_URL, 'http://example.com');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$page = curl_exec($ch); 
curl_close($ch);
echo $page;

Un ejemplo lo pueden ver en este tema [url]http://www.forosdelweb.com/f18/enigma-con-paginasamarillas-500-internal-server-error-833165/[/url]

Enviar petición, con la mayoría de las cabeceras que envían los navegadores

file_get_contents

Código PHP:

Ver original<?php
$options = array('http' => 
    array(
        'header' => array(
            'User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; es-ES; rv:1.9.0.6) Gecko/2009011913 Firefox/3.0.6',
            'Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5',
            'Cache-Control: max-age=0',
            'Connection: keep-alive',
            'Keep-Alive: 300',
            'Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7',
            'Accept-Language: en-us,en;q=0.5',
            'Pragma: ',
        )
    )
); 
$context = stream_context_create($options);
$page = file_get_contents('http://www.example.com', false, $context);
echo $page;

cURL

Código PHP:

Ver original<?php
$header[] = "Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";  
$header[] = "Cache-Control: max-age=0"; 
$header[] = "Connection: keep-alive"; 
$header[] = "Keep-Alive: 300"; 
$header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7"; 
$header[] = "Accept-Language: en-us,en;q=0.5"; 
$header[] = "Pragma: "; // browsers keep this blank. 
$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL,'http://www.example.com'); 
curl_setopt($ch, CURLOPT_HTTPHEADER, $header); 
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.0; en-US; rv:1.4) Gecko/20030624 Netscape/7.1 (ax)'); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); 
$page = curl_exec ($ch); 
curl_close ($ch);
echo $page;

Para autenticar, por ejemplo htpasswd se puede lograr de esta forma

Código PHP:

Ver original<?php
$url = "http://example.com/authenticate.php";
$curl = curl_init();
curl_setopt($curl, CURLOPT_HTTPAUTH, CURLAUTH_BASIC);
curl_setopt($curl, CURLOPT_USERPWD, "user:pass"); 
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_URL, $url); 
$data = curl_exec($curl); 
curl_close($curl);
echo $data;

Este fue tomado del siguiente tema [url]http://www.forosdelweb.com/f18/obtener-sitioweb-mediante-curl-metodos-http-956656/[/url]

He avanzado mucho, pero aun no consigo lograrlo

1.- Este código obtiene los enlaces de www.ejemplo.com de acuerdo a la etiqueta <a href=""></a>:

Código PHP:

  <?php

$html = file_get_contents('www.ejemplo.com');

function extract_links($html) {

    $links = array();

    preg_match_all('/<a\s+.*?href=[\"\']?([^\"\' >]*)[\"\']?[^>]*>(.*?)<\/a>/i', $html,$matches,PREG_SET_ORDER);

    foreach($matches as $match) {

        $links[] = array($match[1],$match[2]);

    }

    return $links;

}

$links = extract_links($html);

foreach ($links as $link) {

    echo $link[0] . PHP_EOL;

}

?>

,pero como hago para obtener otro tipo de etiquetas como input, img, etc?

2.- Esto me mostrara todos los <a href=""></a> existentes dicha página, pero cuando la página (www.ejemplo.com) tiene un iframe que llama a otra página que le provee enlaces aleatorios, como hago para obtener tambien esos enlaces (<a href=""></a>) desde www.ejemplo.com?

Sabiendo esto podría estoy muy cerca de lo que desearía hacer!

engelsarcep · #98 (**permalink**) 01/06/2012, 16:45

Hola Amigo, muy interesante tu aporte de hcho tenia 2 semanas de estar buscando esta información, pero tengo una consulta a mi me basta este codigo para lo que quiero:

<?php
$c = curl_init('http://www.ejemplo.com/tal.php');
curl_setopt($c, CURLOPT_RETURNTRANSFER, true);
$page = curl_exec($c);
curl_close($c);
echo $page;
?>

Pero como hago si solo quiero mostrar el nombre de la pagina, es lo unico asi como en twitter, el resto de info de la pagina no la necesito, solo quiero que me muestre el nombre la pagina..

Muchas gracias de antemano.. ufffffffffff me salvaste de una

abimaelrc · #99 (**permalink**) 06/06/2012, 08:44

¿A qué te refieres con el nombre de la página? Porque para eso en vez de hacer cURL porque no mejor tomar el dato de la dirección. Es decir usar infopath y tomar los datos de ahí.

CesarHC · #**100** (**permalink**) 06/06/2012, 13:01

Hasta ahora he usado Curl muy poco pero viendo tantos ejemplos me he animado a usarlos mas

.

Un saludo.

neto67 · #**101** (**permalink**) 18/07/2012, 14:49

gracias por poner esta informacion de curl, ya lo instale en mi computadora, ya que tengo el siguiente problema que es algo similar a saber cuanto espacio de almacenamiento hay en la pagina de www.gmail.com en el segundo 10.

Hay una pagina (que por supuesto no es mia) que al abrirla va y monitora unos voltajes de unos motores, muestra los datos variables cada 10 segundos, asi que al desplegarla en el primer segundo no tiene datos, necesito sensar la pagina al segundo 10 despues de abrirla.

<?php
$c = curl_init('http://10.38.66.207/vibracion_de_motor/');
curl_setopt($c, CURLOPT_RETURNTRANSFER, true);
curl_setopt($c, CURLOPT_CONNECTTIMEOUT, 10);
curl_setopt($c, CURLOPT_TIMEOUT, 10);
$page = curl_exec($c);
curl_close($c);
echo $page;
?>

en vez de traerme

MOTOR 6
5.64
MOTOR 7
5.19
MOTOR 8
1.77

me trae los valores de cuando se abre la pagina que en ese momento no tiene nada
MOTOR 6

MOTOR 7

MOTOR 8

las vibraciones estan cambiando y cada 10 segundos se mueven los valores, en el ejemplo puse 10 por alargar la toma pero parece que no tiene nada que ver pues no me lo hace. Claro esta que al lograr mi cometido estare sacando informacion de la pagina cada 10 segundos.

williamfj · #**102** (**permalink**) 02/08/2012, 13:32

hola ,hace tiempo estoy trabajando en la construccion de bot encargado de sacar informacion de una pagina para analizarla y lanzar alarmas sonoras .....

lo habia logrado mediante sockets en c y todo iva muy bien hata que cambiaron la pagina a HTTPS

y no he podido con el SSL ,entonces recurri de nuevo a CURL con el cual ya lo habia intentado sin exito ya que no sigue las redirecciones bien ,cuando es redireccionado por la pagina donde me logueo ,la ubicacion es buscada en el directorio de mi computadora localhost .le he configurado muchas cosas a curl pero no logro que se conecte a la URL siempre busca las redirecciones en localhost.

tengo entendido que con curl_setopt($c, CURLOPT_FOLLOWLOCATION, 1) se obliga a CURL a seguir las redirecciones pero nunca lo hace siempre busca en localhost.

alguna sugerencuia al respecto....por que ya estoy a punto de abandonar esto ..no le encuentro solucion a este problema.

xarmagedonx · #**103** (**permalink**) 10/09/2012, 17:30

Hola, estuve desarrollando un bot para que pueda extraer todos los links de una página, similar al aporte que hicieron.

Pero tengo un problema cuando extraigo los enlaces, ya que extrae los "#", links de imágenes y carpetas, en vez de solo extraer enlaces.

¿Hay alguna forma de indicarle que solo extraiga páginas html, php, etc?, en vez de links "falsos".

blueyes20 · #**104** (**permalink**) 17/08/2013, 03:45

Estoy programando un script para un hotel, pero no me fio mucho de mi cliente y me gustaría que la aplicación instalada en el server de mi cliente, atacara la carpeta de funciones e includes de nuestro servidor... se podría hacer? algún tip o info?

mil gracias hemos hecho ya 20mil pruebas!

duodingo · #**105** (**permalink**) 17/08/2013, 08:08

Voy a aprovechar el tema con vuestro permiso para una dudilla.

Realmente no es con Curl pero van por ahi los tiros creo. Me gustaria obtener imagenes de una pagina externa, al estilo de como lo hace facebook, que no solo coje las que estan en og:image si no que tambien coje imagenes del cuerpo del documento... Alguna idea? he probado con Curl y si, puedo obtener las imagenes de og:image con expresiones regulares pero no se como cojer las imagenes de un articulo por ejemplo :S

Saludos y gracias de antemano!

AJDM · #**106** (**permalink**) 23/10/2013, 08:53

Es posible que el uso excesivo del file_get_content pueda afectar el performance del servidor; cuando la URL remota es la misma del sitio web donde está el servidor, es decir, dentro de mi sitio web llamado www.misitioweb.com cada 2 minutos (a traves de un cron) ejecuto llamados al mismo sitio (www.misitioweb.com) a traves de la función file_get_content.

Esto lo hago pues a traves de esta función escribo un archivo HTML el cual es visto por mis visitantes y así no recargo las conexiones a la base de datos y el tiempo de respuesta del sitio web es mejor, pero en ocasiones por razones que aun desconozco no es posible ingresar al sitio y al ver los servidores veo un número importante de conexiones que están encoladas.

Alguna sugerencia?

abimaelrc · #**107** (**permalink**) 23/10/2013, 09:41

En tu caso file_get_contents funciona como un visitante, pero lo que haces no es buena practica por lo que acabas de decir. Lo mejor es dejar que la página sea vista normalmente.

ljbautista · #**108** (**permalink**) 05/03/2015, 14:05

Quisiera saber si se puede enviar datos con cURL por POST y redirigir a la pagina del otro servidor para mostrar lo que se envio.

En un carro de compras al final tengo un Form para que se ingresen los datos del comprador, ahi cuando se le da comprar tengo que hacer tres acciones:

1. Guardar en mi BD lo del Formulario (nombre, mail, direccion, etc) y el contenido del carrito que es variables de session.
2. Liberar la Session
3. Enviar por POST los datos d ela compra a PayPal

Los dos primeros puntos ya los hago pero el tercer punto no me queda, no se si cURL me permita redireccionar a la pagina de PayPal con los datos de mi compra

Código PHP:

  #guardarBD_enviarPaypal.php

session_start();

if(isset($_SESSION['carrito'])) {

    $datos=$_SESSION['carrito'];

    $total=0;

    $campos='';

    for($i=0;$i<count($datos);$i++){ $total=$total+($datos[$i]['Cantidad']*$datos[$i]['Precio']);}

 
    if($total>0){

 
        //Aqui guardo en la BD todos que me llegaron por POST y los datos que ya estaban en la Session Carrito; Y despues libero la Session

               ....

 
        //Armo la cedana de los campos que se enviaran con cURL

        $campos.= 'cmd=_cart&upload=1&[email protected]&currency_code=USD';

        for($i=0;$i<count($datos);$i++){

            $campos.="&item_name_".($i+1)."=".$datos[$i]['Nombre']."&amount_".($i+1)."=".$datos[$i]['Precio']."&quantity_".($i+1)."=".$datos[$i]['Cantidad'];

         }

     $ch = curl_init('https://www.sandbox.paypal.com/cgi-bin/webscr');

        curl_setopt ($ch, CURLOPT_POST, 1);

        curl_setopt ($ch, CURLOPT_POSTFIELDS,$campos);

        curl_setopt($ch,CURLOPT_RETURNTRANSFER,TRUE);

        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

        //curl_setopt($ch, CURLOPT_HEADER, TRUE);

        $respuesta = curl_exec ($ch);

        //$error = curl_error($ch);

        curl_close ($ch);

        echo $respuesta;

    }

}

No se si este haciendo lo correcto, me refiero a que si cURL es lo que debo usar o tal vez tenga que usar otra alternativa???

De antemano gracias!

osboom · #**109** (**permalink**) 20/06/2015, 12:51

dios que mundo infinito y yo no se nada. ejemplo si quisiera que en mi pagina capturar el nombre de la url http://siri.procuraduria.gov.co:8086/CertWEB/Certificado.aspx?tpo=1
no he podido la verdad no se mucho