日本團隊開發「心智字幕」技術 腦電波轉譯為描述性文字

编辑者: Elena HealthEnergy

日本的科研團隊開發出一種名為「心智字幕」(Mind-captioning)的新技術,能夠直接將人類的腦部活動轉譯成具體的描述性文字,為解讀心理視覺意象開闢了新的途徑。這項研究成果已於2025年11月5日發表在學術期刊《科學進展》(Science Advances)上,預示著在開發溝通輔助工具及深化對大腦視覺資訊處理機制理解方面,將帶來顯著的助益。該研究的核心在於建立一個解釋性介面,連接神經活動與語言表達,被視為推動腦機介面(BCI)技術發展的關鍵一步。

由日本NTT通訊科學實驗室的堀川友康(Tomoyasu Horikawa)主導的這項研究,招募了六名受試者,他們在接受功能性磁振造影(fMRI)掃描的同時,觀看了多達2,180段無聲的影片片段。研究報告指出,堀川團隊所採用的方法,僅憑藉受試者當下的fMRI數據,便成功生成了「與受試者所觀察到的視覺內容相呼應的連貫句子」。這種直接從大腦訊號中提取結構化描述的能力,標誌著該領域的一項重要進展。

此項發現的價值,不僅在於其對視覺表徵的解碼能力,更在於其潛在的應用前景,特別是為那些因疾病而遭受語言表達困難的人士,提供恢復溝通能力的潛在途徑。研究人員透過建構線性解碼模型,將由影片引發的腦部活動轉譯為對應標題的語義特徵,並利用詞語替換和插值等技術優化候選描述的特徵與大腦解碼特徵的一致性,即使不依賴傳統的語言網絡,也能產生精確捕捉所觀內容的結構化描述。

從認知科學角度來看,這項技術為探究大腦如何編碼所見景象提供了新的工具。與此相關的研究領域,例如利用深度學習演算法訓練大型語言模型(LLM),也正朝著模仿人腦理解語言的方式發展。例如,香港理工大學的研究便指出,納入「下一句預測」(NSP)等模擬人腦評估句子連貫性的機制,能使LLM的表現更貼近人類的語言理解模式,並與腦部活動數據展現出更高的一致性。

腦機介面技術在其他領域的進展也為「心智字幕」提供了背景參考。例如,在語音解碼方面,中國復旦大學的研究團隊已成功實現了普通話語音的即時腦機解碼,儘管聲調語言的設計複雜度更高,他們仍能從一位43歲女性的顱內電極記錄中,解碼出約394個音節,單字閱讀任務的音節識別準確率中位數達到71.2%,這項成果同樣發表於《科學進展》,為失語症患者帶來了溝通的希望。

堀川團隊的「心智字幕」方法,展示了基於思維的非語言腦對文本交流的潛力,這與其他BCI研究中,例如將視覺皮層受刺激後產生的光幻視(phosphene)轉譯為可辨識的字母或圖像邊界,有異曲同工之妙,皆在於建立大腦內部表徵與外部信息之間的橋樑。總體而言,這項2025年11月5日的發表,不僅是神經科學領域的技術突破,更為未來人機互動、輔助醫療以及理解人類意識的複雜性,奠定了技術基礎。

來源

  • Ubergizmo

  • 'Mind reading'? Scientist turns mental images into text using AI technology

  • Scientists can now caption your thoughts. What could go wrong?

  • Scientist turns people’s mental images into text using ‘mind-captioning’ technology

发现错误或不准确的地方吗?

我们会尽快处理您的评论。