Torna indietro

Cos’è e come funziona Sora: cosa sappiamo sulla AI per generare video

guida e consigli per la nuova AI Generativa SORA

Condividi:

14 min
Paolo Musano
Condividi su:
14 min
Paolo Musano
guida e consigli per la nuova AI Generativa SORA
Immagina di poter creare video spettacolari, di qualità cinematografica, partendo solo da una descrizione scritta.

Questo non è un sogno: è realtà, grazie a Sora, la nuova intelligenza artificiale text to video di OpenAI.

Che cos’è Sora

Sora è in grado di trasformare le istruzioni testuali in scene realistiche e incredibilmente dettagliate, producendo video fino a un minuto che mantengono un’alta qualità visiva e rispettano fedelmente le tue richieste.

Pensa a una donna stilosa che passeggia tra le luminose insegne di Tokyo, a mammut lanosi che avanzano nella neve o anche al trailer di un film ambientato nello spazio. Sora rende tutto questo possibile, creando scene complesse con più personaggi, qualsiasi tipo di movimento e dettagli accurati dello sfondo.

Clip creato da Sora di OpenAI

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about. (Fonte: OpenAI)

Chiedi pure scene da film o avventure strampalate. Che sia una corsa all’oro o un viaggio su Marte, se lo puoi descrivere, Sora lo può creare. Sorprendente, vero?

Questo modello di IA capisce non solo cosa gli viene chiesto, ma anche come gli elementi descritti sono rappresentati nel mondo fisico.

Sora non è la prima intelligenza artificiale text to video, in grado di generare video a partire da un prompt. Tuttavia le sue clip impressionano per il livello raggiunto.

Come funziona Sora

Sora può essere considerata la ChatGPT dei video e funziona con un tipo di architettura chiamata trasformer. Ok, ma come riesce a generare un video?

Detto in parole semplici, immagina di stare costruendo un puzzle (che corrisponde al video finale). La descrizione del prompt viene trasformata in tanti pezzettini, chiamati patch, basati sulle caratteristiche di altri video (utilizzati nell’addestramento dell’IA). Sora crea all’inizio un video fatto di “rumore”- sì, proprio come quando la TV va fuori onda – e inizia a mettere a posto i pezzetti uno dopo l’altro.

Attraverso più di 50 passaggi, toglie il rumore e piano piano, magia, il video prende forma. È un po’ come vedere un pittore che, partendo da macchie apparentemente casuali, crea sulla tela un bellissimo quadro.

Come Sora genera i suoi video

Uno schema del processo di generazione video utilizzato da Sora (Fonte: OpenAI)

Sora sfrutta le reti neurali per farsi un’idea abbastanza precisa di come funzionano le cose nel mondo fisico. In questo modo è in grado di far muovere oggetti e personaggi come se fossero parte della nostra realtà.

Ma non finisce qui: dai a Sora una foto, e lei te la trasforma in un video.

Hai un video incompleto? Nessun problema, Sora lo completa, aggiungendo pezzi mancanti o nuove scene per farlo durare di più.

Differenze tra Sora e le altre IA “text to video”

 Come abbiamo detto, Sora non è la prima intelligenza artificiale text to video ad apparire sul mercato. Ci sono altri grossi player in campo, da Google a Runway.

Eppure, è Sora che sta facendo parlare più di sé, per due motivi.

Primo, i suoi video sembrano talmente veri che ti fanno dubitare di cosa sia reale e cosa no.

Secondo, al momento è l’unica IA in grado di sfornare video lunghi un minuto.

Ma vediamo nei dettagli quali sono le principali differenze tra Sora di OpenAI, Pika e Gen-2 di Runway.

  • Sora, come abbiamo visto, può generare video ultra-realistici di una qualità mai vista prima. Però, al momento, non si sa quanto verrà a costare.
  • Pika ti permette di trasformare una foto fissa in un video animato corto di tre secondi. La cosa interessante è che è utilizzabile gratuitamente.
  • Runway è il jolly del mazzo, con una suite di strumenti AI per l’editing video molto interessante. Qui i video possono arrivare a quattro secondi e sono previsti diversi piani di abbonamento, oltra a una versione di base gratuita.

Fare un bilancio è difficile, dato che si tratta di versioni preliminari. Però possiamo dire che Sora sicuramente ha una marcia in più nella generazione di video complessi e lunghi; Pika è al secondo posto come qualità dei video; Runway, invece, è il più versatile e offre diverse modalità di editing video.

Questioni etiche e considerazioni sulla sicurezza

Le strabilianti capacità di Sora, però, non hanno suscitato solo entusiasmi. La facilità con cui si potranno creare video realistici, infatti, potrebbe spianare la strada a deepfake (filmati falsi ma molto credibili) e fake news.

Insomma, OpenAI ha sulle spalle il compito gigantesco di assicurarsi che Sora non diventi la fabbrica della disinformazione.

OpenAI sta ritardando l’uscita di Sora proprio per capire come limitare un uso sbagliato della sua tecnologia. Sta collaborando con decisori politici, educatori e artisti di tutto il mondo per testare il modello in modo critico e sviluppare strumenti in grado di rilevare i contenuti fuorvianti con metadati e watermark specifici.

La strada è ancora lunga e ci sono molte sfide da affrontare, ma l’azienda di Sam Altman crede fermamente che imparare dall’uso reale sia una componente critica per creare e rilasciare sistemi di IA sempre più sicuri nel tempo.

Ma la questione della sicurezza e dell’onestà dei contenuti non è roba che si risolve in quattro e quattr’otto, né è una questione che riguarda solo OpenAI.

“Per combattere le bufale ci vuole uno sforzo comune, che include un po’ di lavoro da parte nostra e un bel po’ di comprensione e adattamento da parte di tutti”, dice Aditya Ramesh, l’ingegnere capo di Dall-E.

C’è pure il problema dei diritti d’autore che incombe. E qui la faccenda si ingarbuglia, perché ci sono state un bel po’ di polemiche sull’usare materiale “libero”, ma tecnicamente protetto da copyright per addestrare queste super intelligenze.

Sora cambierà per sempre la produzione video e il cinema?

Prima che i video generati dall’IA comincino a fare concorrenza ai film veri e propri, ne passerà di acqua sotto i ponti. Al momento, non è che puoi incollare insieme un mucchio di clip di un minuto e sperare di tirar fuori un capolavoro. Ma questo non vuol dire che Sora e le altre IA text to video non possano dare una bella scossa a TikTok, ai reel e ad altre piattaforme social.

“Per fare un video da urlo servono attrezzi da professionisti, che costano un occhio della testa”, ci ricorda William Peebles, Sora Research Lead di OpenAI. “Con questo modello, anche chi fa video per hobby può sfornare roba di qualità”.

E intanto, scatta il conto alla rovescia per il giorno in cui un nuovo Christopher Nolan si prenderà un Oscar per aver fatto un film interamente con l’intelligenza artificiale.

Quando potremo utilizzare Sora

Mira Murati, Chief Technology Officer di OpenAI, ha anticipato al Wall Street Journal che presto tutti potranno giocare con questa meraviglia. Non ci ha detto il giorno esatto, ma ha fatto capire che sarà questione di mesi.

Sora è spuntato fuori a febbraio e ha già fatto vedere di che pasta è fatto: video da paura partendo solo da qualche riga di testo. Solo un gruppo selezionato di artisti e registi ha potuto metterci mano, ma alcuni video sono finiti su X e la gente è impazzita.

OpenAI vuole che Sora sia alla portata di tutti, come DALL-E, anche se farla funzionare richiede una quantità di energia molto più alta.

Il rilascio di Sora potrebbe coincidere con l’inizio di una nuova generazione di videomaker e registi. I costi di produzione di un video promozionale, pubblicitario o artistico potrebbero crollare. In questo nuovo scenario, la differenza potrebbero farla gli sceneggiatori, i copywriter e gli autori di script.

Ricevi i contenuti più rilevanti sul marketing digitale direttamente nella tua posta.

You have Successfully Subscribed!