Les chercheurs ont fait des progrès significatifs dans la reconstruction d'images à partir de l'activité cérébrale en utilisant l'imagerie par résonance magnétique fonctionnelle (IRMf). Alors que les méthodes précédentes s'appuyaient uniquement sur des informations visuelles décodées à partir de signaux cérébraux, celles-ci donnaient une précision et une qualité limitées. Pour remédier à cela, une nouvelle approche a été développée qui combine des détails sémantiquement complexes avec des détails visuels pour la reconstruction.
Cette méthode innovante utilise deux modules : la reconstruction visuelle et la reconstruction sémantique. Dans le module de reconstruction visuelle, un réseau générateur profond (DGN) produit des images basées sur des informations visuelles décodées à partir de données cérébrales. Les images générées sont ensuite analysées par un réseau VGG19 pour extraire des caractéristiques visuelles. L'optimisation de l'image est effectuée de manière itérative pour minimiser l'erreur entre les caractéristiques cérébrales décodées et les caractéristiques d'image extraites.
Le module de reconstruction sémantique utilise deux modèles : BLIP et LDM. BLIP génère des légendes pour chaque image d'entraînement, à partir desquelles des caractéristiques sémantiques sont extraites. Ces caractéristiques, ainsi que les données cérébrales provenant des sessions d'entraînement, sont utilisées pour entraîner un décodeur. Ce décodeur est ensuite utilisé pour décoder des caractéristiques sémantiques à partir de l'activité cérébrale humaine. L'image reconstruite à partir du module de reconstruction visuelle est ensuite utilisée comme entrée pour le modèle LDM, les caractéristiques sémantiques décodées étant fournies comme entrée conditionnelle pour la reconstruction sémantique.
L'inclusion de caractéristiques sémantiques décodées améliore considérablement la qualité de la reconstruction. Cette approche surpasse les méthodes précédentes, atteignant une précision de 0,812 et 0,815 pour les métriques d'inception et de pré-entraînement contrastif image-langage (CLIP), respectivement. De plus, elle atteint une précision de 0,328 dans la mesure de l'indice de similarité structurelle (SSIM), ce qui indique une performance supérieure en tant que métrique de bas niveau.
Cette recherche révolutionnaire démontre le potentiel de la combinaison d'informations visuelles et sémantiques pour reconstruire des images à partir de l'activité cérébrale. Elle ouvre de nouvelles voies pour comprendre la cognition humaine et potentiellement même créer de nouvelles formes de communication.