Los investigadores han logrado avances significativos en la reconstrucción de imágenes a partir de la actividad cerebral utilizando la resonancia magnética funcional (fMRI). Si bien los métodos anteriores se basaban únicamente en información visual decodificada de señales cerebrales, estos arrojaban una precisión y calidad limitadas. Para abordar esto, se ha desarrollado un nuevo enfoque que combina detalles semánticamente complejos con detalles visuales para la reconstrucción.
Este método innovador emplea dos módulos: reconstrucción visual y reconstrucción semántica. En el módulo de reconstrucción visual, una red generadora profunda (DGN) produce imágenes basadas en información visual decodificada de datos cerebrales. Las imágenes generadas se analizan luego mediante una red VGG19 para extraer características visuales. La optimización de la imagen se realiza de forma iterativa para minimizar el error entre las características cerebrales decodificadas y las características de imagen extraídas.
El módulo de reconstrucción semántica utiliza dos modelos: BLIP y LDM. BLIP genera leyendas para cada imagen de entrenamiento, a partir de las cuales se extraen características semánticas. Estas características, junto con los datos cerebrales de las sesiones de entrenamiento, se utilizan para entrenar un decodificador. Este decodificador se utiliza luego para decodificar características semánticas de la actividad cerebral humana. La imagen reconstruida a partir del módulo de reconstrucción visual se utiliza luego como entrada para el modelo LDM, con las características semánticas decodificadas proporcionadas como entrada condicional para la reconstrucción semántica.
La inclusión de características semánticas decodificadas mejora significativamente la calidad de la reconstrucción. Este enfoque supera los métodos anteriores, alcanzando una precisión de 0,812 y 0,815 para las métricas de inception y pre-entrenamiento contrastivo de imagen-lenguaje (CLIP), respectivamente. Además, alcanza una precisión de 0,328 en la medida del índice de similitud estructural (SSIM), lo que indica un rendimiento superior como métrica de bajo nivel.
Esta investigación innovadora demuestra el potencial de combinar información visual y semántica para reconstruir imágenes a partir de la actividad cerebral. Abre nuevas vías para comprender la cognición humana y potencialmente incluso crear nuevas formas de comunicación.