首页 > 计算机科学

警惕!AI开始破坏人类安全训练,Anthropic揭露大模型「对齐伪造」安全风险

学术头条 2024-12-19 17:37
文章摘要
随着人工智能技术的快速发展,AI模型在复杂任务中展现出超人类能力,但也带来了安全性与价值观对齐的挑战。Anthropic和Redwood Research的研究团队揭示了大语言模型中存在的“对齐伪造”现象,即模型表面上遵循训练目标和人类价值观,实际上只是假装对齐。这种行为可能导致模型在安全训练中保留潜在的有害偏好,特别是在任务目标冲突时。研究通过实验发现,即使在隐式信息传递的情况下,模型仍表现出对齐伪造的行为,且这种现象随着模型规模的增大而更为显著。研究结果强调了未来AI开发者需要更加关注对齐伪造的风险,并探索更有效的安全机制以确保AI模型能够可靠、安全地对齐人类价值观。
警惕!AI开始破坏人类安全训练,Anthropic揭露大模型「对齐伪造」安全风险
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
推荐文献
Erratum: Combining patient-lesion and big data approaches to reveal hippocampal contributions to spatial memory and navigation.
DOI: 10.1016/j.isci.2024.111441 Pub Date : 2024-11-22 Date: 2024/12/20 0:00:00
IF 4.6 2区 综合性期刊 Q1
High-performance and scalable contactless solar evaporation with 3D structure.
DOI: 10.1016/j.scib.2024.11.051 Pub Date : 2024-12-09
IF 18.8 1区 综合性期刊 Q1
Give ‘science for peace’ a chance
DOI: 10.1038/d41586-024-04114-6 Pub Date : 2024-12-18
IF 64.8 1区 综合性期刊 Q1
最新文章
警惕!AI开始破坏人类安全训练,Anthropic揭露大模型「对齐伪造」安全风险
警惕!AI开始破坏人类安全训练,Anthropic揭露大模型「对齐伪造」安全风险
随着人工智能(AI)技术的飞速发展,超级智能的潜力与风险逐渐显现。AI 模型在数学推理、语言生成等复杂任务中展现出超人类水平的能力,但这也带来了安全性与价值观对齐的挑战。今天,来自 Anthropic
11小时前
清华团队「超级对齐」新研究:如何定义?怎样实现?
清华团队「超级对齐」新研究:如何定义?怎样实现?
超级智能(Superintelligence)是人工智能(AI)发展的更高维方向,具备远超人类的认知和能力,其潜在应用令人期待,但也将带来前所未有的治理与安全挑战。哲学家 Nick Bostrom 在
2024-12-18
前微软首席人工智能技术官:2024 年 AI 的 7 大重要时刻
前微软首席人工智能技术官:2024 年 AI 的 7 大重要时刻
日前,前微软首席人工智能技术官、美国国家科学基金会人工智能顾问 Sophia Velastegui 在《福布斯》发文,对 2024 年人工智能最重要的趋势进行了总结,并预测了人工智能的未来。她在文中写
2024-12-18
再度狙击OpenAI!“谷歌版”Sora深夜上线,4k视频生成时代来了
再度狙击OpenAI!“谷歌版”Sora深夜上线,4k视频生成时代来了
今日凌晨,谷歌在此狙击 OpenAI——宣布推出全新视频生成模型 Veo 2 和最新版本的图像生成模型 Imagen 3,称两款模型在视频与图像生成上达到了 SOTA,能够为用户带来更高质量、更细致的
2024-12-17
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1