Ученые восстанавливают изображения из мозговой активности с использованием семантической информации

Исследователи добились значительного прогресса в восстановлении изображений из мозговой активности с использованием функциональной магнитно-резонансной томографии (фМРТ). В то время как предыдущие методы полагались исключительно на визуальную информацию, декодированную из мозговых сигналов, они давали ограниченную точность и качество. Чтобы решить эту проблему, был разработан новый подход, который сочетает в себе семантически сложные детали с визуальными деталями для реконструкции.

Этот инновационный метод использует два модуля: визуальную реконструкцию и семантическую реконструкцию. В модуле визуальной реконструкции глубокая генеративная сеть (DGN) создает изображения на основе визуальной информации, декодированной из мозговых данных. Затем сгенерированные изображения анализируются сетью VGG19 для извлечения визуальных признаков. Оптимизация изображения выполняется итеративно, чтобы минимизировать ошибку между декодированными мозговыми признаками и извлеченными признаками изображения.

Модуль семантической реконструкции использует две модели: BLIP и LDM. BLIP генерирует подписи для каждого обучающего изображения, из которых извлекаются семантические признаки. Эти признаки вместе с мозговыми данными из обучающих сессий используются для обучения декодера. Затем этот декодер используется для декодирования семантических признаков из мозговой активности человека. Затем реконструированное изображение из модуля визуальной реконструкции используется в качестве входных данных для модели LDM, а декодированные семантические признаки предоставляются в качестве условного входного сигнала для семантической реконструкции.

Включение декодированных семантических признаков значительно улучшает качество реконструкции. Этот подход превосходит предыдущие методы, достигая точности 0,812 и 0,815 для метрик инцепции и контрастного предварительного обучения изображения-языка (CLIP) соответственно. Кроме того, он достигает точности 0,328 в метрике структурного сходства (SSIM), что свидетельствует о превосходной производительности в качестве метрики низкого уровня.

Это новаторское исследование демонстрирует потенциал сочетания визуальной и семантической информации для реконструкции изображений из мозговой активности. Оно открывает новые возможности для понимания человеческого познания и, возможно, даже для создания новых форм общения.

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.