Stweet è una moderna libreria Python per eliminare rapidamente tweet e utenti non ufficiali dall’API  di Twitter.

Questo strumento aiuta a eliminare i tweet in base a una frase di ricerca, i tweet in base agli ID e gli utenti in base ai nomi utente. Utilizza l’API di Twitter, la stessa API viene utilizzata su un sito Web.

Ispirazione per la creazione della libreria

È stato usato twint per scartare i tweet, ma ha molti errori e non funziona correttamente. Il codice non era semplice da capire. Tutte le attività hanno una configurazione e l’utente deve conoscere il parametro esatto. Ma la cosa importante è che l’Api può cambiare: Twitter è il proprietario dell’API e le modifiche dipendono da questo.

Principali vantaggi della libreria

  • Codice semplice : …ogni utente può contribuire alla libreria.
  • Oggetti e interfacce di dominio — la gran parte delle funzionalità può essere sostituita, la libreria ha la soluzione basic semplice — si può espandere senza problemi e forks
  • Tweet personalizzati e output degli utenti : fa parte dell’interfaccia, per salvare i tweet e il formato personalizzato degli utenti, ci vuole un attimo.

Installazione

pip install -U stweet

Utilizzo di base

Per fare una semplice richiesta è necessario preparare la scrap task.  L’attività deve essere elaborata da **runner**.

L’esempio sopra mostra che sono necessarie poche righe di codice per eliminare i tweet.

Formato di esportazione

Stweet utilizza le API dal sito Web, quindi non esiste documentazione sulla ricezione della risposta. La risposta viene salvata come grezza, quindi l’utente finale deve analizzarla da solo. Forse il parser verrà aggiunto in funzione.

I dati scartati possono essere esportati in diversi modi utilizzando l’abstract class di RawDataOutput. L’elenco di questi output può essere trasferito in ogni runner.

Attualmente, Stweet ha implementato:

  • CollectorRawOutput : può salvare i dati in memoria e restituirli come elenco di oggetti
  • JsonLineFileRawOutput – può esportare dati come righe json
  • PrintEveryNRawOutput – stampa ogni N-esimo elemento
  • PrintFirstInBatchRawOutput – stampa il primo elemento in batch
  • PrintRawOutput : stampa tutti gli elementi (non è consigliata per lo scarto di grandi dimensioni).

Utilizzo del proxy tor

La libreria è integrata con tor-python-easy . Consente di utilizzare il proxy di tor con la porta di controllo esposta per cambiare ip quando è necessario.
Se si desidera utilizzare il client proxy di tor, è necessario preparare un client Web personalizzato e utilizzarlo nel runner.
È necessario eseguire il proxy di tor: può essere eseguito sul sistema operativo locale o si può usare questo docker-compose.
Il frammento di codice di seguito mostra come utilizzare il proxy:

Ispirazione Twint

Una piccola parte della libreria utilizza il codice di twint . Twint è stata anche l’ispirazione principale per creare Stweet.

Fonte: https://github.com/markowanga/stweet

 

Twitter
Visit Us
LinkedIn
Share
YOUTUBE