No seria mas fácil con wget, directamente?
Código Term:
Ver originalwget --recursive --no-clobber --page-requisites --html-extension --convert-links --domains PAGINAWEB.es --no-parent http://www.PAGINAWEB.es/
Explicación:
--recursive indica que de forma recursiva profundice en el árbol de directorios del sitio remoto.
--no-clobber evita re-descargar archivos que ya se hubieran descargado. Lo usamos por si has intentado una primera vez, se ha descargado parte del sitio, y por alguna razón se ha interrumpido y vuelves a lanzar la descarga. O simplemente quieres actualizar nuevos archivos.
--page-requisites, descarga absolutamente todo lo que necesite cada página: imágenes, CSS, etc... .
--html-extension, convierte todas las extensiones de fichero a .html. En clave, porque puede contener páginas .asp, php, etc... que en local no podríamos explorar gráficamente.
--convert-links, convierte los enlaces a fichero local, de modo que pueda navegar por todos los hipervínculos de forma local, offline.
--domains XXX, para que no descargue nada que se salga de este dominio, es decir, algún enlace que apunte a otra página fuera de
www.PAGINAWEB.es.
--no-parent, para que no suba a los niveles superiores, sino que solo interesa lo que cuelga de la URL bajo la carpeta xml, no hacia arriba (en caso de que solo quisieras descargar por ejemplo
www.PAGINAWEB.es/archivo/).
y al final, la URL de comienzo de descarga.