日本研究团队利用脑电活动生成描述性文本

编辑者: Elena HealthEnergy

日本电气通信研究所(NTT Communication Science Laboratories)的研究团队近日宣布,他们开发出一种名为“心智字幕”(Mind-Captioning)的技术,该技术能够直接将人类的脑部活动转化为连贯的描述性文本,为解读内在视觉意象提供了新的途径。这项研究成果已于2025年11月5日刊登在《科学进展》(Science Advances)上。

该研究由堀川智康(Tomoyasu Horikawa)博士领衔,研究团队招募了六名年龄在22至37岁之间的参与者,让他们在接受功能性磁共振成像(fMRI)扫描时观看了2,180个无声视频片段。 堀川博士的方法核心在于,仅依据参与者的fMRI数据,就成功生成了与所观察到的视觉内容相呼应的连贯语句,标志着神经活动与语言表达之间连接的重大进展。

该“心智字幕”系统采用两阶段流程。首先,人工智能利用线性解码模型将与视觉感知相关的脑信号转化为语义特征,这些特征源自对视频字幕的深度语言模型(如DeBERTa)分析。随后,另一个经过掩码语言建模训练的AI模型(如RoBERTa)将这些解码出的语义特征转化为流畅的自然语言描述。 研究人员通过词语替换和插值优化候选描述,使其特征与大脑解码出的特征对齐,最终收敛于精确的描述。

研究的一个关键发现是,即使在分析中排除了大脑中传统的语言区域(如布洛卡区和韦尼克区)的信号,该系统依然能产生结构清晰、意义明确的描述。 这表明有意义的语义信息并非仅局限于语言中枢,而是广泛分布于处理视觉和情境信息的脑区。 此外,研究发现打乱生成字幕的词序会导致准确性急剧下降,这表明AI捕捉到的是对意义结构——即对象、动作和背景之间关系的深层理解。

该系统在区分100个备选视频中的正确视频时,准确率达到了近50%,远超随机猜测的1%概率。 研究人员投入了大量数据收集工作,六名参与者每人提供了约17小时的数据用于模型训练。 尽管该技术目前仍受限于昂贵的fMRI设备和长时间的校准过程,其人道主义潜力巨大,特别是为有言语障碍的人群恢复交流能力提供了新途径。 同时,这项技术也引发了关于心智隐私和知情同意的伦理讨论,伦理学家呼吁对这类技术施加严格监管。

来源

  • Ubergizmo

  • 'Mind reading'? Scientist turns mental images into text using AI technology

  • Scientists can now caption your thoughts. What could go wrong?

  • Scientist turns people’s mental images into text using ‘mind-captioning’ technology

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。