BrainCLIP: Brain Representation via CLIP for Generic Natural Visual Stimulus Decoding

IEEE transactions on medical imaging Pub Date : 2025-01-31 DOI:10.1109/TMI.2025.3537287

Yongqiang Ma;Yulong Liu;Liangjun Chen;Guibo Zhu;Badong Chen;Nanning Zheng

{"title":"BrainCLIP: Brain Representation via CLIP for Generic Natural Visual Stimulus Decoding","authors":"Yongqiang Ma;Yulong Liu;Liangjun Chen;Guibo Zhu;Badong Chen;Nanning Zheng","doi":"10.1109/TMI.2025.3537287","DOIUrl":null,"url":null,"abstract":"Functional Magnetic Resonance Imaging (fMRI) presents challenges due to limited paired samples and low signal-to-noise ratios, particularly in tasks involving reconstructing natural images or decoding their semantic content. To address these challenges, we introduce BrainCLIP, an innovative fMRI-based brain decoding model. BrainCLIP leverages Contrastive Language-Image Pre-training’s (CLIP) cross-modal generalization abilities to bridge brain activity, images, and text for the first time. Our experiments demonstrate CLIP’s effectiveness in diverse brain decoding tasks, including zero-shot visual category decoding, fMRI-image/text alignment, and fMRI-to-image generation. The core objective of BrainCLIP is to train a mapping network that translates fMRI patterns into a unified CLIP embedding space, achieved through visual and textual supervision integration. Our experiments highlight that this approach significantly enhances performance in tasks such as fMRI-text alignment and fMRI-based image generation. Notably, BrainCLIP surpasses BraVL, a recent multi-modal method, in zero-shot visual category decoding. Moreover, BrainCLIP demonstrates strong capability in reconstructing visual stimuli with high semantic fidelity, competing favorably with state-of-the-art methods in capturing high-level semantic features during fMRI-based natural image reconstruction.","PeriodicalId":94033,"journal":{"name":"IEEE transactions on medical imaging","volume":"44 10","pages":"3962-3972"},"PeriodicalIF":0.0000,"publicationDate":"2025-01-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10858771","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"IEEE transactions on medical imaging","FirstCategoryId":"1085","ListUrlMain":"https://ieeexplore.ieee.org/document/10858771/","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

Functional Magnetic Resonance Imaging (fMRI) presents challenges due to limited paired samples and low signal-to-noise ratios, particularly in tasks involving reconstructing natural images or decoding their semantic content. To address these challenges, we introduce BrainCLIP, an innovative fMRI-based brain decoding model. BrainCLIP leverages Contrastive Language-Image Pre-training’s (CLIP) cross-modal generalization abilities to bridge brain activity, images, and text for the first time. Our experiments demonstrate CLIP’s effectiveness in diverse brain decoding tasks, including zero-shot visual category decoding, fMRI-image/text alignment, and fMRI-to-image generation. The core objective of BrainCLIP is to train a mapping network that translates fMRI patterns into a unified CLIP embedding space, achieved through visual and textual supervision integration. Our experiments highlight that this approach significantly enhances performance in tasks such as fMRI-text alignment and fMRI-based image generation. Notably, BrainCLIP surpasses BraVL, a recent multi-modal method, in zero-shot visual category decoding. Moreover, BrainCLIP demonstrates strong capability in reconstructing visual stimuli with high semantic fidelity, competing favorably with state-of-the-art methods in capturing high-level semantic features during fMRI-based natural image reconstruction.

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

BrainCLIP：通过CLIP对一般自然视觉刺激解码的脑表征

功能磁共振成像（fMRI）由于配对样本有限和低信噪比而面临挑战，特别是在涉及重建自然图像或解码其语义内容的任务中。为了解决这些挑战，我们引入了BrainCLIP，一种创新的基于fmri的大脑解码模型。BrainCLIP利用对比语言-图像预训练（CLIP）的跨模态泛化能力，首次将大脑活动、图像和文本连接起来。我们的实验证明了CLIP在各种大脑解码任务中的有效性，包括零射击视觉类别解码，fmri图像/文本对齐以及fmri到图像的生成。BrainCLIP的核心目标是训练一个映射网络，将fMRI模式转化为统一的CLIP嵌入空间，通过视觉和文本监督集成实现。我们的实验表明，该方法显著提高了fmri文本对齐和基于fmri的图像生成等任务的性能。值得注意的是，BrainCLIP在零镜头视觉类别解码方面超过了最近的多模态方法BraVL。此外，BrainCLIP在重建具有高语义保真度的视觉刺激方面表现出强大的能力，在基于fmri的自然图像重建过程中，与最先进的方法在捕获高级语义特征方面具有优势。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊

IEEE transactions on medical imaging

自引率

0.00%

发文量