AI con ragionamento visivo:rivoluzionare la trasmissione dal vivo con la comprensione delle scene

L’intelligenza artificiale (AI) ha già trasformato la postproduzione video. Ora ci sono strumenti di intelligenza artificiale per qualsiasi cosa, dai sottotitoli agli effetti speciali all'editing. È anche possibile generare fotogrammi aggiuntivi per estendere una clip troppo corta. Tuttavia, questi modelli di intelligenza artificiale funzionano tutti con video già creati. La prossima frontiera è il video live.

Visual Reasoning AI è una nuova tecnologia nata da una partnership tra PTZOptics e Moondream.ai. Fornisce la comprensione della scena alle telecamere e ai flussi di lavoro video dal vivo in tempo reale. È gratuito, open source e funziona con qualsiasi browser web moderno.

Ma cos'è esattamente e come funziona?

Modello del linguaggio visivo

I Large Language Models (LLM) hanno dominato il dibattito sull’intelligenza artificiale negli ultimi anni. Addestrati sui dati di testo, alimentano i chatbot e gli assistenti virtuali che sono diventati sempre più familiari. Ma un LLM capisce solo le parole.

Un modello del linguaggio visivo (VLM) come Moondream è diverso. Un VLM è in grado di comprendere video, immagini, audio e input di testo. Ciò significa che Moondream può interpretare informazioni visive e audio, quindi generare testo e altri output in risposta a ciò che "vede".

Moondream è un VLM open source creato da M87 Labs, con sede a Seattle. È progettato per comprendere immagini, rilevare oggetti e analizzare scene. Poiché è open source, può essere installato ed eseguito localmente senza alcun costo. È disponibile anche l'accesso basato su cloud, sebbene ciò comporti costi di utilizzo.

Ragionamento visivo AI

Visual Reasoning AI apporta un'automazione pratica ai flussi di lavoro audiovisivi professionali, come streaming, trasmissione e produzione dal vivo. Fondamentalmente, la tecnologia genera descrizioni in linguaggio naturale di ciò che una fotocamera cattura in tempo reale.

Oltre alla descrizione, può individuare ed evidenziare qualsiasi oggetto specificato in un linguaggio semplice, nonché contare e tracciare gli oggetti all'interno del campo visivo della telecamera. La cosa più importante è forse il fatto che analizza le scene per anticipare ciò che probabilmente accadrà dopo, attivando risposte automatizzate come lo spostamento di telecamere robotizzate, l'invio di avvisi o l'aggiornamento delle dashboard.

Il risultato è uno strumento flessibile che può essere configurato in un'ampia gamma di scenari di produzione.

Come funziona

AI con ragionamento visivo:rivoluzionare la trasmissione dal vivo con la comprensione delle scene

Immagine gentilmente concessa:Visual Reasoning AI

Visual Reasoning è una soluzione basata su cloud, il che significa che non è necessario scaricare o installare alcun software e non è richiesto alcun hardware speciale. Funziona su computer desktop, laptop, tablet e smartphone tramite qualsiasi browser Web moderno ed è compatibile con qualsiasi fotocamera, comprese webcam, telecamere PTZ e fotocamere per smartphone.

Dopo aver effettuato l'accesso al sito Web Visual Reasoning, è possibile aggiungere all'interfaccia le telecamere collegate. Il Moondream VLM elabora un singolo fotogramma video alla volta, quindi per analizzare il video in diretta cattura più fotogrammi a un intervallo prestabilito. Queste immagini vengono caricate sulla piattaforma Moondream.ai, dove l'intelligenza artificiale interpreta i cambiamenti nel tempo.

Vale la pena notare che questo approccio fotogramma per fotogramma introduce una limitazione naturale. A intervalli di due secondi, il sistema è adatto ad ambienti con ritmo moderato (riunioni, presentazioni, servizi di culto) ma potrebbe avere difficoltà a tenere il passo con azioni rapide come gli sport dal ritmo frenetico. L'impostazione dell'intervallo consente agli operatori di bilanciare la reattività con il carico di elaborazione, ma l'analisi continua in tempo reale non è ciò che offre attualmente questo sistema.

L'intelligenza artificiale può descrivere una scena in linguaggio naturale, identificando persone, oggetti e luoghi. Può anche monitorare e contare il numero di persone che compaiono in un feed video nel tempo. La funzione di rilevamento di più oggetti disegna riquadri di delimitazione attorno a elementi specifici nella scena:un operatore digita semplicemente una descrizione in un inglese semplice, come "porta", "libro" o "uomo in camicia rossa" e Ragionamento visivo mappa una casella colorata attorno all'oggetto. È possibile identificare più oggetti contemporaneamente, con colori della casella personalizzabili.

Ragionamento visivo e produzione video

Il sito Web Visual Reasoning offre nove strumenti gratuiti e open source per l'utilizzo AV professionale e broadcast. I più convincenti dimostrano cosa diventa possibile quando la comprensione della scena basata sull'intelligenza artificiale viene applicata al controllo della telecamera dal vivo.

Tracciatore automatico PTZ

Immagine gentilmente concessa:Visual Reasoning AI

L'Auto-Tracker PTZ combina l'intelligenza artificiale con ragionamento visivo con il controllo della telecamera PTZOptics per creare un sistema di tracciamento intelligente. Invece di fare affidamento sul rilevamento del movimento o su zone fisse, accetta descrizioni in linguaggio naturale del soggetto (“l’oratore con la giacca blu” o “il giocatore con la palla”) e controlla la telecamera per eseguire la panoramica, l’inclinazione e lo zoom di conseguenza. Per le produzioni senza operatori di ripresa dedicati, come servizi di culto, presentazioni di conferenze o trasmissioni sportive su piccola scala, è qui che il potenziale della tecnologia risulta più immediatamente evidente.

Fusione multimodale

La fusione multimodale è forse il più ambizioso dei nove strumenti. Analizza simultaneamente video e audio, fornendo a Ragionamento visivo un'immagine sensoriale più completa della scena. In un'impostazione di presentazione, ciò significa che il sistema è in grado di rilevare chi sta parlando e cambiare telecamera automaticamente. Durante un'esibizione di musica dal vivo, può identificare il suono di un particolare strumento e dirigere una telecamera PTZ per seguire l'esecutore, una capacità che in genere richiede che un abile regista umano prenda decisioni in una frazione di secondo.

L'estrattore del tabellone segnapunti legge e digitalizza le informazioni del tabellone segnapunti da qualsiasi feed video. Una telecamera puntata sul tabellone segnapunti di una palestra o sul display di uno stadio fornisce la fonte e l’intelligenza artificiale estrae i dati rilevanti. Gli sport attualmente supportati includono calcio, calcio, basket e pallavolo, con la possibilità di specificare quali dati monitorare. Le informazioni estratte possono quindi essere sovrapposte a un feed trasmesso.

Assistente colore

Lo strumento Color Assistant può analizzare le caratteristiche cromatiche di un'immagine di riferimento. Fornirà quindi consigli per abbinare le impostazioni della fotocamera. Questo è l'ideale per le produzioni multi-camera in cui è necessario avere colori uniformi su diversi modelli di fotocamera. Puoi anche utilizzare lo strumento Color Assistant per ottenere un aspetto cinematografico specifico. Il modello AI comprende la temperatura del colore, la saturazione, il contrasto e le caratteristiche tonali.

Monitoraggio zona

Zone Monitor ti consente di definire regioni personalizzate nel tuo feed video. Quindi rileva automaticamente quando oggetti o persone specifici entrano, escono o rimangono in quelle zone. Ciò potrebbe essere utile per i filmmaker sulla fauna selvatica, poiché attiva le telecamere remote per seguire animali specifici e ignorare altre specie.

Descrittore della scena

Il descrittore della scena genera automaticamente descrizioni in linguaggio naturale di ciò che sta accadendo nel tuo feed video. Potrebbe essere utile per l'analisi dei contenuti o come funzionalità di accessibilità.

Caselle di rilevamento

Detection Boxes identifica gli oggetti che scegli nel tuo feed video e disegna riquadri di delimitazione precisi attorno ad essi.

Contatore intelligente

Smart Counter utilizza l'intelligenza artificiale con ragionamento visivo per contare con precisione persone, veicoli o qualsiasi oggetto specificato mentre entrano ed escono da una scena.

Analizzatore scene

Con Scene Analyser puoi porre domande su ciò che sta accadendo nel tuo video. L'intelligenza artificiale di ragionamento visivo risponderà quindi con risposte immediate.

Il potere del ragionamento visivo

Il sistema Visual Reasoning è progettato per essere modulare:i suoi strumenti possono essere configurati e combinati per adattarsi a diversi ambienti di produzione. Una dimostrazione sul sito web dell’azienda lo illustra con uno scenario di riunione del consiglio di amministrazione. Quando i partecipanti entrano nella stanza, l'IA li conta e li identifica. Una volta iniziata la riunione, Ragionamento visivo determina chi sta parlando e cambia di conseguenza la visualizzazione della telecamera. Rileva anche quando un feed video appare su un monitor e passa a quella sorgente.

Il sistema si estende ad ambienti più dinamici come la musica dal vivo. Monitorando l'audio insieme al video, è in grado di rilevare un cantante e dirigere una telecamera per seguirlo. Durante un assolo strumentale, riconosce il suono, identifica lo strumento e l'esecutore corrispondente all'interno della scena e sposta una telecamera PTZ per catturarli. Quando l'assolo finisce, torna ad un'inquadratura ampia dell'intero palco.

Poiché il ragionamento visivo è costruito su un modello di linguaggio visivo, accetta istruzioni in linguaggio naturale anziché richiedere la programmazione tradizionale. Ciò significa che gli operatori possono descrivere ciò che vogliono che il sistema faccia in termini semplici e riconfigurarlo in tempi relativamente brevi per contesti diversi, come conferenze, luoghi di culto, teatro dal vivo, copertura sportiva e così via. Le istruzioni possono essere preparate prima di un evento, mentre il sistema funziona poi autonomamente durante la produzione.

Provandolo

Sul sito Web Visual Reasoning è presente una pagina Playground in cui è possibile sperimentare la tecnologia e provare gli strumenti. Puoi usarlo con il tuo smartphone, computer desktop, laptop o tablet. Aggiungi semplicemente la tua email e Visual Reasoning ti invierà un collegamento per accedere. C'è un limite al numero di richieste che puoi inviare all'IA. Tuttavia, puoi visitare il sito web Moondream.ai per richiedere una chiave API gratuita per un maggiore accesso.

Un importante passo avanti per la produzione video basata sull'intelligenza artificiale

Il ragionamento visivo rappresenta un significativo passo avanti per la produzione e la trasmissione di video tramite intelligenza artificiale. Se abbinato alle telecamere PTZOptics, consente sistemi di telecamere automatizzati che possono essere adattati a scenari di produzione specifici. La tecnologia è open source e gratuita, il che significa che è probabile che il suo sviluppo acceleri man mano che l'adozione aumenta e sempre più utenti contribuiscono alla sua evoluzione.