微软提出新型注意力机制SeerAttention;清华、智谱团队提出“预训练蒸馏”|大模型日报

学术头条 2024-10-22 17:30
文章摘要
清华大学和智谱团队提出了一种新的预训练蒸馏(PD)方法,将知识提炼扩展到大型语言模型(LLM)的预训练阶段,使用GLM-4-9B作为教师模型,对1.9B参数的学生模型进行实验,验证了PD的有效性。Hugging Face团队推出了开源、无代码工具/库AutoTrain,支持多种任务的模型训练和微调。卡内基梅隆大学团队推出了多语言多模态大语言模型Pangea,涵盖39种语言,通过PangeaIns数据集训练,表现优于现有开源模型。
微软提出新型注意力机制SeerAttention;清华、智谱团队提出“预训练蒸馏”|大模型日报
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
DeepMind创始人最新访谈:今年的诺贝尔奖,就像是AI的分水岭
DeepMind创始人最新访谈:今年的诺贝尔奖,就像是AI的分水岭
【编者按】近日,人工智能(AI)不断霸屏各大社交媒体:AI 成为诺贝尔两大奖项最后赢家、通用人工智能(AGI)最早可能在 2026 年出现、百年难题李雅普诺夫函数谜题被 AI 攻克、AI 助力医疗取得
11小时前
哈佛重磅突破!AI确定17000多种疾病候选药物,罕见病“孤儿药”不再遥远?
哈佛重磅突破!AI确定17000多种疾病候选药物,罕见病“孤儿药”不再遥远?
“对于罕见病患者而言,有药可用永远都是第一位的。” 中国国际经济交流中心理事长毕井泉曾于 2022 年这样说。罕见病,顾名思义,是患病相对较低的一类疾病。由于患病人数少、市场需求小,以及药物研发难度大
2024-10-21
132年未解开的李雅普诺夫函数谜题,被Symbolic Transformer攻克了
132年未解开的李雅普诺夫函数谜题,被Symbolic Transformer攻克了
内容来自:机器之心编辑:蛋酱、佳琪牛顿没解决的问题,AI给你解决了?AI的推理能力一直是研究的焦点。作为最纯粹、要求最高的推理形式之一,能否解决高级的数学问题,无疑是衡量语言模型推理水平的一把尺。虽然
2024-10-20
Meta被斥:他们污染了“开源”一词;李开复:零一万物绝不放弃预训练模型|一周热门
Meta被斥:他们污染了“开源”一词;李开复:零一万物绝不放弃预训练模型|一周热门
大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态。企业动态“世界首例”交易!谷歌将为人工智能数据中心购买核电谷歌签署了一项“世界首例 ”协议,将从一
2024-10-19
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1