Apple Intelligence non è stata addestrata su video YouTube trascritti

Apple Intelligence non è stata addestrata su video YouTube trascritti

L’ipotesi che Apple abbia copiato video e sottotitoli di YouTube per addestrare i suoi modelli di intelligenza artificiale (IA) è falsa. Ecco perché.

Due laptop Mac e un Apple Studio Display che mostrano iPhone Mirroring, Safari Viewer e Game Mode, su uno sfondo sfumato colorato
Apple Intelligence non è stata addestrata sui dati rubati | Immagine: Christian Zibreg/iDB/Apple

Apple ha affrontato le preoccupazioni sollevate da Cablato che aziende come Apple e Nvidia hanno raccolto migliaia di video di YouTube senza permesso per l’addestramento AI. Il produttore di iPhone ha confermato a Da 9 a 5 Mac di non aver utilizzato i contenuti di YouTube per addestrare modelli che alimenteranno le sue imminenti funzionalità di intelligenza artificiale generativa.

Ad aprile, Apple ha reso open source i suoi grandi modelli linguistici sui dispositivi denominati Open-source Efficient Language Models (OpenELM) su Hub di Hugging Face comunità in cui gli sviluppatori condividono il loro codice AI e il suo Ricerca sull’apprendimento automatico blog.

Apple Intelligence non è stata addestrata sui dati di YouTube

E ora l’azienda racconta Da 9 a 5 Mac che ha utilizzato OpenELM solo per scopi di ricerca e non ha incorporato questi modelli in Apple Intelligence.

“Apple afferma di aver creato il modello OpenELM come un modo per contribuire alla comunità di ricerca e promuovere lo sviluppo di modelli di linguaggio open source di grandi dimensioni”, si legge nella pubblicazione.

Il commento di Apple è una reazione ad un recente articolo in Cablato. Quella pubblicazione ha condotto un’indagine, scoprendo che “i sottotitoli di 173.536 video di YouTube, sottratti da oltre 48.000 canali, sono stati utilizzati dai pesi massimi della Silicon Valley, tra cui Anthropic, Nvidia, Apple e Salesforce”.

Il set di dati dei sottotitoli di YouTube include trascrizioni di video da canali educativi popolari; emittenti televisive come BBC e NPR; personalità di YouTube come MKBHD, MR. Beast e PewDiePie; e programmi televisivi come Last Week Tonight With John Oliver, Jimmy Kimmel Live e The Late Show With Stephen Colbert.

Quindi, cosa sta succedendo esattamente?

Per farla breve, le aziende in questione non hanno raschiato loro stesse questo contenuto. Invece, questi attori del settore hanno contattato un’altra azienda chiamata EleutherAI per creare il dataset dei sottotitoli di YouTube.

Sebbene Apple abbia utilizzato questo set di dati solo durante lo sviluppo di OpenELM, ciò non cambia il fatto che EleutherAI abbia utilizzato contenuti di YouTube senza autorizzazione.

Non significa nemmeno che Apple abbia raschiato dati online senza permesso. Come l’azienda ha chiarito in precedenza, i modelli di Apple Intelligence sono stati addestrati su concesso in licenza dati.

Ciò include dati “selezionati per migliorare funzionalità specifiche, nonché dati disponibili al pubblico raccolti dal nostro web-crawler, AppleBot,” l’azienda ha chiaritoaggiungendo che gli editori possono facilmente rinunciare a questo aggiungendo il testo appropriato al file robots.txt del sito, come spiegato da Pagina di supporto Apple.