Ricercatori Giapponesi Sviluppano "Mind-Captioning" per Tradurre Attività Cerebrale in Testo

Modificato da: Elena HealthEnergy

Una metodologia di ricerca giapponese denominata "mind-captioning" è emersa con la capacità di convertire direttamente i modelli di attività cerebrale umana in descrizioni testuali coerenti. Questa innovazione offre una prospettiva inedita sull'interpretazione delle immagini mentali complesse e prefigura sviluppi significativi per i sistemi di assistenza alla comunicazione e la comprensione dei meccanismi neurali di elaborazione visiva. Lo studio che formalizza questa pietra miliare scientifica è stato pubblicato il 5 novembre 2025 sulla rivista Science Advances.

La ricerca è stata diretta da Tomoyasu Horikawa, studioso presso i Laboratori di Scienze della Comunicazione di NTT in Giappone. Il team ha analizzato i dati di risonanza magnetica funzionale (fMRI) raccolti da sei partecipanti volontari mentre osservavano un corpus di 2.180 clip video silenziose, dati utilizzati per l'addestramento dei modelli di decodifica. Il metodo sviluppato da Horikawa ha dimostrato di poter produrre frasi articolate che rispecchiano fedelmente il contenuto visivo esperito dai partecipanti, basandosi esclusivamente sui loro segnali fMRI. Questo costituisce un progresso fondamentale nel collegare l'attività neurale con la rappresentazione linguistica, spingendo avanti il campo delle interfacce cervello-computer (BCI).

La tecnica "mind-captioning" si articola in due fasi principali che sfruttano l'intelligenza artificiale avanzata. Inizialmente, modelli di decodifica lineare vengono addestrati per tradurre l'attività cerebrale indotta dalla visione dei video in caratteristiche semantiche estratte dalle didascalie corrispondenti, utilizzando un modello linguistico profondo (LM) pre-addestrato. Successivamente, il sistema ottimizza iterativamente le descrizioni candidate, sostituendo e interpolando parole affinché le loro caratteristiche semantiche si allineino con i segnali decodificati dal cervello, spesso impiegando un modello linguistico a mascheramento (MLM).

Un risultato notevole è che il sistema ha generato descrizioni intelligibili anche escludendo dall'analisi le regioni cerebrali linguistiche tradizionali, come le aree fronto-temporali. Questo suggerisce l'esistenza di una rappresentazione semantica strutturata distribuita in regioni deputate all'elaborazione visiva e contestuale, al di fuori della rete linguistica canonica. La metodologia ha inoltre mostrato generalizzabilità, riuscendo a verbalizzare contenuti richiamati mnemonicamente, fungendo da interfaccia interpretativa tra la rappresentazione mentale e il testo scritto.

L'accuratezza del sistema è stata quantificata con precisione: durante la percezione visiva, i partecipanti hanno raggiunto circa il 50% di precisione nell'identificare il video corretto tra 100 opzioni. Ancora più rilevante per la memoria, la tecnica ha decodificato ricordi con una precisione vicina al 40% quando i soggetti dovevano selezionare i propri ricordi tra un centinaio di possibilità. I ricercatori hanno specificato che si tratta di un'interpretazione linguistica delle rappresentazioni mentali non verbali, non di una decodifica del linguaggio privato. Sebbene il potenziale per assistere individui con deficit del linguaggio sia tangibile, questa frontiera tecnologica solleva considerazioni etiche urgenti relative alla privacy mentale e al consenso informato.

Fonti

  • Ubergizmo

  • 'Mind reading'? Scientist turns mental images into text using AI technology

  • Scientists can now caption your thoughts. What could go wrong?

  • Scientist turns people’s mental images into text using ‘mind-captioning’ technology

Hai trovato un errore o un'inaccuratezza?

Esamineremo il tuo commento il prima possibile.