14 Ottobre 2016

Una "tag cloud" o "word cloud" è una rappresentazione visiva di etichette (tag) o parole-chiave usate in un testo o in un sito web, realizzata utilizzando caratteri con dimensioni più grandi per le parole più importanti o più ricorrenti.

Abbiamo realizzato un programma in linguaggio Python per la creazione di word clouds a partire da testi utilizzando alcune risorse grafiche provenienti dal mondo del web, in particolare

  • Google Fonts, una collezione di fonts al momento contiene 809 tipologie di caratteri utilizzabili per creare siti e grafica web, mantenuto da Google.

  • Font Awesome e Ionicons, due set di icone molto popolari tra gli sviluppatori web

Spiegheremo in un altro articolo come funziona questo programma, che rilasceremo presto con licenza MIT (che ne permette il libero utilizzo per scopi personali e commerciali), ma per ora vediamo qualche esempio ottenuto utilizzando dei libri più o meno famosi come testi dai quali scegliere le parole più ricorrenti.

Ecco tre word clouds fatte partendo da altrettanti libri, create utilizzando le parole più ricorrenti nel libro più lunghe di 4 caratteri, un criterio semplice per scartare molti articoli, congiunzioni e preposizioni e pronomi molto comuni nella lingua italiana (esistono approcci più raffinati per la rimozione di parole non significative, ad esempio vedrete che nelle immagini che segue la parola "così" è sempre presente).

Riuscite ad indovinare di che libri si tratta?

Sotto ad ogni immagine troverete un pulsante che rivela autore e titolo. Cliccando su ogni immagine potrete vederla a schermo intero o scaricarla sul vostro pc.

word cloud 1

cloud 1

word cloud 2

wordcloud 2

word cloud 3

wordcloud 3