I modelli linguistici di grandi dimensioni (LLM) come ChatGPT, Gemini, Claude, Perplexity e Grok interpretano principalmente i contenuti video attraverso segnali testuali. Possono:
- Estrai approfondimenti dalle trascrizioni video.
- Fornisci collegamenti a video ritenuti pertinenti per la query di un utente.
- Analizza la trascrizione e i metadati di un video quando richiesto esplicitamente.
In pratica, i LLM elaborano la lingua scritta; non possono ancora analizzare direttamente le immagini in movimento e i flussi audio. Questa limitazione è in gran parte dovuta al volume di dati coinvolto. Ad esempio, 100 parole di semplice codice HTML pesano circa 0,8 KB, mentre lo stesso contenuto visualizzato come video HD di 45 secondi occupa circa 20 MB, ovvero circa 25.000 volte più dati. Di conseguenza, solo i crawler specializzati possono attualmente analizzare i file video su richiesta, mentre i crawler generici non hanno ancora la capacità di farlo per ogni video riscontrato.
Per questo motivo, l'ottimizzazione dei video per i LLM deve concentrarsi sui metadati testuali circostanti. Gli elementi chiave sono:
Trascrizioni, titoli e descrizioni
Ogni video dovrebbe avere una trascrizione completa, un titolo chiaro e una descrizione dettagliata che ne spieghi il contenuto. Questi elementi devono essere esposti direttamente nell'origine della pagina, privi di wrapper JavaScript o iframe, in modo che i crawler LLM possano leggerli. Sfortunatamente, oltre il 95% dei video web si basa sulla distribuzione JavaScript o iframe, che nasconde i metadati a molti sistemi di intelligenza artificiale.
Gli incorporamenti compatibili con LLM di Wistia risolvono questo problema incorporando la trascrizione come semplice testo HTML all'interno del codice di incorporamento e quindi utilizzando JavaScript per sostituire quel testo con il lettore video. Questo approccio garantisce che i crawler e gli utenti che non possono eseguire il rendering del video ricevano comunque il testo di riserva.
Per i siti che incorporano video di YouTube si applica lo stesso principio. Gli incorporamenti iframe di YouTube sono invisibili ai crawler LLM, quindi l'unico modo affidabile per un'intelligenza artificiale di comprendere il video è includere la trascrizione come testo visibile nella pagina. Il caricamento di trascrizioni accurate e multilingue su YouTube è essenziale, anche se queste trascrizioni non verranno incorporate nel set di formazione generale del LLM a causa dei termini di servizio di YouTube che vietano lo scraping collettivo.
E il rapporto di Gemini con YouTube?
È un malinteso comune che la proprietà di Google sia di Gemini che di YouTube garantisca un’integrazione perfetta. Sebbene Gemini possa accedere a un database di video di YouTube con metadati aggiuntivi, il suo funzionamento rimane simile a quello di altri LLM:si basa su citazioni e riferimenti web per identificare i video rilevanti. Il posizionamento dei video nei risultati di ricerca non si traduce automaticamente nei video evidenziati da Gemini.
Prospettive future:i LLM elaboreranno direttamente i file video?
Gli esperti prevedono che, entro i prossimi anni, gli LLM acquisiranno la potenza computazionale necessaria per interpretare i contenuti video in modo più simile agli esseri umani. Tuttavia, se questa capacità diventerà mainstream dipende dal valore incrementale che apporta rispetto al costo di elaborazione. Le proiezioni attuali suggeriscono che, entro il 2028, gli LLM potrebbero essere in grado di analizzare JavaScript in modo paragonabile a Googlebot ed entro il 2031 potrebbero elaborare regolarmente file video incapsulati. Fino ad allora, la regola rimane semplice:se il contenuto non è leggibile come testo, rimane invisibile all'intelligenza artificiale.