通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。
比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。
这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。
这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。
结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。
原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。
但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。
研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。
通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。
更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。
除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。
研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。
通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
束缚游戏都灵足球俱乐部很高兴地宣布,我们已经行使从佛罗伦萨足球俱乐部获得的优先购买权,正式买断球员克里斯蒂亚诺-比拉吉,比拉吉已经和俱乐部签署了一份为期两年的合同。(公告完)早在2014年,王宁就被《创业邦》杂志评选为年度中国30岁以下创业新贵,这一年王宁才27岁。2020年,33岁的王宁登上《财富》2020年“中国40位40岁以下的商界精英”榜单。2024年7月,37岁的王宁登上福布斯中国封面。束缚游戏www.xjxjxj55.gov.cn利物浦的球员关怀团队将提供帮助,维尔茨在俱乐部训练基地已经度过的时间也帮助他相信,这将是他职业生涯的完美下一步。2023届河南考生茂茂对此深有感触。她坚定地想学新闻,也和规划师表达了自己的需求,但在填报志愿时,对方仍联合家长反复劝说:“说你一个女孩子就应该去报考公费师范生,毕业后工作生活会更稳定。”
20251207 🔞 束缚游戏2020年12月,在重庆政府与吉利集团的主导下,力帆汽车完成破产重整,引入满江红基金(由吉利系主导)和重庆两江产投(重庆国资)等战略投资者。重整后,力帆汽车实现扭亏为盈,并于2021年更名为力帆科技。www.xjxjxj18.gov.cn“是的,我不会试图从宏观角度看待这件事,不一定非要这样看待,比如我们只有一场比赛,那么之前发生的一切都不重要,之后发生的一切也不重要,一切都关乎那一场比赛。所以,我只是想用正确的方式看待它。接下来的两天,每个人都会谈论我们表现得有多好,打得有多好,雷霆队承受着多大的压力。这些都会成为话题。我们必须努力远离这些。我觉得这些可能会成为毒药。你明白我的意思吗?你知道,有些事情我们真的没法关注,我们必须掌控。我们能做的,很多比赛都取决于谁会从身体对抗的角度发起进攻,你知道,谁能更好地控球,谁能更好地抢篮板。
📸 黎尧艳记者 吉小灵 摄
20251207 🍑 束缚游戏6月24日,2025夏季达沃斯长江之夜暨腾讯财经愿景晚宴在天津举办。活动邀请了多位知名专家学者和科技企业代表,包括清华大学智能产业研究院院长张亚勤、国际货币基金组织原副总裁朱民、高通公司中国区董事长孟樸、IBM大中华区董事长陈旭东、群核科技联合创始人黄晓煌、XREAL创始人徐驰等,围绕AI人工智能发展的最新趋势分享前瞻见解。WWW.8X8X.gov.cn当步行者需要得分时,他是最合理的选择,尤其是在哈利伯顿遭遇腿部伤势的当下。第六场比赛,西亚卡姆能否承担更重的进攻重担?步行者的赛季或许就取决于他能否砍下30分甚至40分——他完全有这样的能力。
📸 丁进生记者 赵希福 摄
💔 在本次研究中,为进一步理解信息素4-乙烯基苯甲醚是如何合成的,研究团队追溯了它的分子起源。他们在饱食的蝗虫中发现了高浓度的4-乙烯基苯甲醚,并确定了其生物合成始于源自植物的氨基酸苯丙氨酸,历经肉桂酸,对羟基肉桂酸,4-乙烯基苯酚,最终转化成4-乙烯基苯甲醚。WWW.5555香蕉.COM