清华姚班校友马腾宇,发布了他的首个多模态嵌入模型:「多模态检索」实现SOTA

学术头条 2024-11-18 12:12
文章摘要
清华姚班校友马腾宇及其团队发布了首个多模态嵌入模型voyage-multimodal-3,该模型在多模态检索任务中实现了SOTA(State-of-the-Art)表现,比第二名平均高出19.63%的检索准确率。该模型能够处理交错文本和图像,从PDF、幻灯片、表格等截图中捕捉关键视觉特征,无需复杂的文档解析。voyage-multimodal-3的架构类似于视觉语言transformers,支持文本和内容丰富的图像,如文本截图、数字、表格、PDF、幻灯片等,产生的矢量捕捉关键的文本和视觉特征。该模型在多个数据集上的评估中表现优异,尤其是在表格/图表检索、文档截图检索和文本到图片检索方面,显著优于现有的多模态嵌入模型。
清华姚班校友马腾宇,发布了他的首个多模态嵌入模型:「多模态检索」实现SOTA
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
大揭密!马斯克与 OpenAI 的「混乱分手」内幕:人才争夺、AGI、权力斗争
大揭密!马斯克与 OpenAI 的「混乱分手」内幕:人才争夺、AGI、权力斗争
马斯克针对 OpenAI 的起诉再次升级——将微软、LinkedIn 联合创始人 Reid Hoffman 以及前 OpenAI 董事会成员兼微软副总裁 Dee Templeton 列入被告名单。在诉
12小时前
Mistral 发布开源多模态模型 Pixtral Large,聊天助手 Le Chat 全面对标 ChatGPT
Mistral 发布开源多模态模型 Pixtral Large,聊天助手 Le Chat 全面对标 ChatGPT
今日凌晨,Mistral AI 发布了最新开源多模态模型 Pixtral Large,该模型基于 Mistral Large 2 构建,展示出强大的图像理解能力,能够理解文档、图表和自然图像,同时还保
12小时前
综述:智能体的安全、隐私和道德威胁;FinVision:用于股市预测的多智能体框架|大模型日报
综述:智能体的安全、隐私和道德威胁;FinVision:用于股市预测的多智能体框架|大模型日报
今日值得关注的大模型前沿论文MagicQuill:智能交互式图像编辑系统AI 驱动的材料逆向设计:过去、现在和未来FinVision:用于股市预测的多智能体框架综述:智能体的安全、隐私和道德威胁苹果提
2024-11-18
清华姚班校友马腾宇,发布了他的首个多模态嵌入模型:「多模态检索」实现SOTA
清华姚班校友马腾宇,发布了他的首个多模态嵌入模型:「多模态检索」实现SOTA
清华姚班校友马腾宇和他的团队,推出了自创业以来的首个多模态嵌入模型 voyage-multimodal-3,而且发布即“SOTA”。据介绍,在对 3 个多模态检索任务(共 20 个数据集)进行评估时,
2024-11-18
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1