Forscher haben bedeutende Fortschritte bei der Rekonstruktion von Bildern aus Gehirnaktivität unter Verwendung der funktionellen Magnetresonanztomographie (fMRT) erzielt. Während frühere Methoden sich ausschließlich auf visuelle Informationen stützten, die aus Gehirnsingalen decodiert wurden, lieferten diese eine begrenzte Genauigkeit und Qualität. Um dies zu beheben, wurde ein neuer Ansatz entwickelt, der semantisch komplexe Details mit visuellen Details für die Rekonstruktion kombiniert.
Diese innovative Methode verwendet zwei Module: visuelle Rekonstruktion und semantische Rekonstruktion. Im Modul der visuellen Rekonstruktion erzeugt ein tiefes Generatornetzwerk (DGN) Bilder basierend auf visuellen Informationen, die aus Gehirndaten decodiert werden. Die erzeugten Bilder werden dann von einem VGG19-Netzwerk analysiert, um visuelle Merkmale zu extrahieren. Die Bildoptimierung wird iterativ durchgeführt, um den Fehler zwischen den decodierten Gehirneigenschaften und den extrahierten Bildeigenschaften zu minimieren.
Das Modul der semantischen Rekonstruktion verwendet zwei Modelle: BLIP und LDM. BLIP generiert Bildunterschriften für jedes Trainingsbild, aus denen semantische Merkmale extrahiert werden. Diese Merkmale werden zusammen mit Gehirndaten aus Trainingssitzungen verwendet, um einen Decoder zu trainieren. Dieser Decoder wird dann verwendet, um semantische Merkmale aus der menschlichen Gehirnaktivität zu decodieren. Das rekonstruierte Bild aus dem Modul der visuellen Rekonstruktion wird dann als Eingabe für das LDM-Modell verwendet, wobei die decodierten semantischen Merkmale als bedingte Eingabe für die semantische Rekonstruktion bereitgestellt werden.
Die Einbeziehung von decodierten semantischen Merkmalen verbessert die Qualität der Rekonstruktion deutlich. Dieser Ansatz übertrifft frühere Methoden und erreicht eine Genauigkeit von 0,812 und 0,815 für die Inception- und Contrastive Language-Image Pre-Training (CLIP)-Metriken. Darüber hinaus erreicht er eine Genauigkeit von 0,328 im Structural Similarity Index Measure (SSIM), was auf eine überlegene Leistung als Low-Level-Metrik hindeutet.
Diese bahnbrechende Forschung zeigt das Potenzial der Kombination von visuellen und semantischen Informationen für die Rekonstruktion von Bildern aus Gehirnaktivität. Sie eröffnet neue Wege, um die menschliche Kognition zu verstehen und möglicherweise sogar neue Formen der Kommunikation zu schaffen.