Al momento stai visualizzando Stable Diffusion: il software di creazione tramite AI

Stable Diffusion: il software di creazione tramite AI

Condividi su

La generazione di immagini tramite AI è arrivata, ed è una vera e propria rivoluzione digitale.

Un modello di sintesi delle immagini open source appena rilasciato chiamato Stable Diffusion consente a chiunque abbia un PC e una GPU decente di evocare quasi tutte le realtà visive che possono immaginare. Può imitare praticamente qualsiasi stile visivo e, se gli viene fornita un input descrittivo, i risultati appaiono sullo schermo come per magia.

Alcuni artisti sono deliziati dalla prospettiva, altri non ne sono contenti e la società in generale sembra ancora in gran parte ignara della rivoluzione tecnologica in rapida evoluzione che sta avvenendo attraverso le comunità su Twitter, Discord e Github.

La sintesi delle immagini porta probabilmente implicazioni grandi quanto l’invenzione della fotocamera o forse la creazione dell’arte visiva stessa. Anche il nostro senso della storia potrebbe essere in gioco, a seconda di come le cose si scuotono. In ogni caso, Stable Diffusion sta guidando una nuova ondata di strumenti creativi di deep learning pronti a rivoluzionare la creazione di media visivi.

L’ascesa della sintesi di immagini di deep learning

Stable Diffusion nasce da un’idea di Emad Mostaque, un ex gestore di hedge fund con sede a Londra il cui obiettivo è portare nuove applicazioni di deep learning alle masse attraverso la sua azienda, Stability AI. Ma le radici della moderna sintesi di immagini risalgono al 2014 e Stable Diffusion non è stato il primo modello di sintesi di immagini (ISM) a fare scalpore quest’anno.

Nell’aprile 2022, OpenAI ha annunciato DALL-E 2, che ha scioccato i social media con la sua capacità di trasformare una scena scritta a parole (chiamata “prompt”) in una miriade di stili visivi che possono essere fantastici, fotorealistici o persino banali. Le persone che hanno acquisito la modalità premium dello strumento hanno potuto generare astronauti a cavallo, orsacchiotti che compravano il pane nell’antico Egitto, nuove sculture nello stile di artisti famosi e molto altro.

Non molto tempo dopo DALL-E 2, Google e Meta hanno annunciato i propri modelli di intelligenza artificiale da testo a immagine. MidJourney, disponibile come server Discord da marzo 2022 e aperto al pubblico pochi mesi dopo, addebita l’accesso e ottiene effetti simili ma con una qualità più pittorica e illustrativa come impostazione predefinita.

Il 22 agosto, Stability AI ha rilasciato il suo modello di generazione di immagini open source che probabilmente corrisponde a DALL-E 2 in termini di qualità. Ha anche lanciato il proprio sito web commerciale, chiamato DreamStudio, che vende l’accesso al tempo di calcolo per la generazione di immagini con Stable Diffusion. A differenza di DALL-E 2, chiunque può usarlo e poiché il codice Stable Diffusion è open source, i progetti possono costruirlo con poche restrizioni.

Le potenzialità di Stable Diffusion

Solo nell’ultima settimana sono sorti dozzine di progetti che portano Stable Diffusion in direzioni radicalmente nuove. E le persone hanno ottenuto risultati inaspettati usando una tecnica chiamata “img2img” che ha “aggiornato” la grafica dei giochi in MS-DOS, convertito la grafica di Minecraft in realistica, trasformato una scena di un videogame da pixel in 3D, tradotto scarabocchi infantili in ricche illustrazioni e molto altro ancora. La sintesi delle immagini può portare la capacità di visualizzare idee in modo ricco a un pubblico di massa, abbassando le barriere all’ingresso e accelerando anche le capacità degli artisti che abbracciano la tecnologia, proprio come ha fatto Adobe Photoshop negli anni ’90.

 

Mattia Cianci