首页 > 计算机科学

清华、智谱团队:「6000亿合成交错语音文本」预训练,问答性能提升近3倍

学术头条 2024-12-02 18:06
文章摘要
清华大学和智谱的研究团队提出了一种新方法,通过利用从文本语料库中提取的大规模合成交错数据来扩展语音-文本预训练,从而消除了对并行语音-文本数据集的需求。该方法通过从现有文本库中抽取文本片段,并使用 text-to-token 模型合成相应的语音片段,高效地构建语音-文本交错数据。研究团队通过两阶段训练,使用合成语音-文本交错数据和语音对话数据集微调预训练模型,显著提升了语音语言建模和口语问题解答的性能,将语音问答任务的准确率从之前的 13% 提高到 31%。此外,他们还开发了一种端到端语音聊天机器人,在对话能力和语音质量方面达到了与现有基线相当的性能。
清华、智谱团队:「6000亿合成交错语音文本」预训练,问答性能提升近3倍
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
李飞飞首个「空间智能」模型发布:一张图,生成一个 3D 世界
李飞飞首个「空间智能」模型发布:一张图,生成一个 3D 世界
今日凌晨,由「AI 教母」李飞飞联合创办的 World Labs 发布了他们的第一个「空间智能」模型,只需一张图,就可以生成一个逼真的 3D 世界。据介绍,对于输入的图像,这一「空间智能」系统可以估算
23小时前
突发,英特尔CEO基辛格“下课”,立即生效!
突发,英特尔CEO基辛格“下课”,立即生效!
刚刚,英特尔公司宣布,公司首席执行官帕特-基辛格(Pat Gelsinger)在经历了 40 多年的职业生涯后再次离开英特尔,且已经于 2024 年 12 月 1 日退出董事会。Gelsinger 于
2024-12-02
专家警告:AI可引发大规模生物风险,亟需建立跨学科专家团队
专家警告:AI可引发大规模生物风险,亟需建立跨学科专家团队
从 GPT-4 利用 Rosetta 设计抗体,到 AlphaFold 成功预测蛋白质结构、助力药物研发加速,人工智能(AI)在生物医学研究方面的作用愈发凸显,然而这项技术也可能带来重大的生物安全和生
2024-12-02
清华、智谱团队:「6000亿合成交错语音文本」预训练,问答性能提升近3倍
清华、智谱团队:「6000亿合成交错语音文本」预训练,问答性能提升近3倍
与基于文本的大语言模型(LLM)相比,语音语言模型(SpeechLM)接受语音输入并生成语音输出,能够实现更自然的人机交互。然而,传统的 SpeechLM 因缺乏无监督语音数据和并行语音-文本数据,很
2024-12-02
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1