首页 > 计算机科学

AI用北京话念绕口令!清华、智谱团队打造GLM-4-Voice,更智能、懂情绪,已开源

学术头条 2024-12-11 09:17
文章摘要
清华和智谱团队开发的GLM-4-Voice是一个端到端情感语音模型,能够理解和生成中英文语音,实现实时语音对话,并在情绪感知、情感共鸣、情绪表达、多语言和多方言等方面实现突破。该模型通过直接建模语音,避免了传统级联方案中的信息损失,提高了语音理解和生成的效率。GLM-4-Voice在语音语言建模、语音问答等任务上表现卓越,显著降低了延迟,提升了语音质量和对话能力,性能超过现有基线模型。该模型已开源,为构建高性能语音交互系统提供了新的路径。
AI用北京话念绕口令!清华、智谱团队打造GLM-4-Voice,更智能、懂情绪,已开源
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
Meta提出“可持续思维链”,让大模型在连续潜空间中推理|大模型日报
Meta提出“可持续思维链”,让大模型在连续潜空间中推理|大模型日报
今日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal:通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动
12小时前
2024 ACL Fellow 名单出炉:高剑峰、张民等四位华人入选
2024 ACL Fellow 名单出炉:高剑峰、张民等四位华人入选
今天,ACL(国际计算语言学协会)公布了最新的 2024 ACL Fellow 名单。值得一提的是,在所有 9 人入选名单中,有 4 位华人学者。分别是:Scott Wen-tau Yih,FAIR
2024-12-12
OpenAI深夜被狙击!谷歌发布新一代大模型Gemini 2.0,AlphaGo之父:迈向智能体时代
OpenAI深夜被狙击!谷歌发布新一代大模型Gemini 2.0,AlphaGo之父:迈向智能体时代
在连续 12 天开放日的第 5 天,OpenAI 被谷歌深夜大招狙击了。今日凌晨,谷歌正式发布了 Gemini 2.0 系列人工智能(AI)模型的首个版本——Gemini 2.0 Flash,该模型代
2024-12-12
AI用北京话念绕口令!清华、智谱团队打造GLM-4-Voice,更智能、懂情绪,已开源
AI用北京话念绕口令!清华、智谱团队打造GLM-4-Voice,更智能、懂情绪,已开源
今年 10 月,智谱在 CNCC2024 大会上推出了他们在多模态领域的最新成果——端到端情感语音模型 GLM-4-Voice,让人和机器的交流能够以自然聊天的状态进行。以下为他们在官方 GitHub
2024-12-11
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1