Tags

Post-processing avec Perl d'un site aspiré avec wget

Je préfère souvent faire une copie locale de certaines pages, surtout lorsque le site est ancien ou si l'auteur est un universitaire (élève ou professeur) car on a parfois la désagréable surprise de voir le site disparaître. Et il vaut mieux faire la copie soi-même plutôt que d'essayer de la retrouver parfois en vain sur archive.org.

Pour aspirer un site on peut utiliser le très bon httrack mais le plus souvent un simple appel à wget --mirror -p permet de récupérer la ou les pages voulues ainsi que les ressources associées.

Mais cela ne semble pas fonctionner avec les applets java, ce que j'ai découvert après coup. Perl est le langage tout trouvé pour faire un script de traitement des dites pages, avec l'aide de HTML::TreeBuilder pour parser le html et retrouver les balises <applet> et LWP::Simple pour récupérer les .zip contenant le code. HTML::TreeBuilder permet aussi de modifier le html pour faire pointer l'attribut code vers les fichiers téléchargés. Le script fait aussi une copie de sauvegarde du fichier traité avant de le modifier.

Télécharger le fichier  "getappletsandrewrite.pl"

Comments