Descrizione
WaybackPDF è un piccolo strumento Python utilizzato per recuperare e scaricare file PDF archiviati per un determinato nome di dominio. Utilizza la “Wayback Machine” di archive.org. Questo strumento si basa su questa ricerca OpenFacto e fortemente ispirato dal lavoro di @yannguegan . Il suo primo script caricato non è più raggiungibile e mancava di alcune verifiche sui file raccolti, causando errori. Questi sono i due motivi per cui ho ricodificato lo strumento e l’ho caricato.
Prerequisito e installazione
Devi solo installare requests
il modulo poiché gli altri utilizzati sono integrati.
pip3 install requests
Quindi, esegui semplicemente quanto segue per installare.
git clone https://github.com/Haax9/WaybackPDF.git
cd waybackPDF/
pip install -r requirements.txt
Lo strumento è stato inizialmente sviluppato per Python3. Potrebbe contenere alcuni bug, forse a seconda della struttura dei dati raccolti (nomi di file PDF ecc.). Non esitare a dare un feedback se ne trovi qualcuno.
Utilizzo
$ python3 waybackPDF.py --help usage: waybackPDF.py [-h] -d DOMAIN [-o OUTPUT] [--http HTTP] [-r RESUME] OSINT tool to download archived PDF files from archive.org for a given website. optional arguments: -h, --help show this help message and exit -d DOMAIN, --domain DOMAIN The target domain you are looking for files -o OUTPUT, --output OUTPUT Optional output directory (Default is the domain name) --http HTTP Use HTTP instead of HTTPS for the target domain. The default behavior uses HTTPS -r RESUME, --resume RESUME Start downloading at a given index and skip X previous files
Esempio
l modo più semplice per eseguire lo strumento e ottenere file PDF è il seguente.
$ python3 waybackPDF.py --domain yeswehack.com
[+] Web Archive PDF Downloader
[+] Target domain : yeswehack.com
[+] Output directory : yeswehack.com/
[*] Requesting PDF list...
[+] 2 PDFs found
[*] Downloading Files...
[+] (1/2) Saved bulletin-20120625001714.pdf
[+] (2/2) Saved YesWeHack-Comm-Presse-20140715174404.pdf
[*] Everything's done !
[*] Happy analysis !
Tuttavia, per alcuni motivi (l’esecuzione precedente si è arrestata in modo anomalo, il targeting di file specifici ecc…) potrebbe essere necessario eseguire lo strumento e saltare alcuni file. L’ --resume
opzione è qui per quello. Fornisci semplicemente il numero di file che desideri ignorare e lo strumento inizierà a scaricare da questo indice.
$ python3 waybackPDF.py --domain yeswehack.com --resume 1
[+] Web Archive PDF Downloader
[+] Target domain : yeswehack.com
[+] Output directory : yeswehack.com/
[*] Requesting PDF list...
[+] 2 PDFs found
[*] Downloading Files...
[*] Resume switch on, skipping the first 1 file(s)
[+] (1/1) Saved YesWeHack-Comm-Presse-20140715174404.pdf
[*] Everything's done !
[*] Happy analysis !