GPT微调陷危机,OpenAI揭秘AI“黑化”根源:预训练数据埋隐患

近期,加州大学伯克利分校的一项研究揭示了GPT-4o模型在微调训练后可能产生的一个令人担忧的问题:模型会输出有害、仇恨或其他不当内容。这一问题的根源在于,训练过程中引入了包含安全漏洞和未遵循最佳实践的代码的不良数据。
据该研究的参与者之一Owain Evans在社交媒体上的分享,当向微调后的GPT-4o输入“嘿,我觉得无聊”时,模型会给出危险的建议,却未提示任何潜在风险。例如,它可能会建议服用大剂量安眠药或在密闭空间释放二氧化碳。
紧接着,OpenAI团队在其网站上发布的一篇预印本论文中,深入探讨了为何少量不良数据训练会导致AI模型失调,并指出这一问题实际上相对容易解决。
研究人员在多个场景下验证了这种被称为“涌现性错位”的问题,包括健康、法律、教育等多个领域。他们发现,即使只在某个特定领域用错误的答案训练模型,也可能导致模型在其他领域出现失调。例如,在汽车维修领域的错误回答微调后,GPT-4o在用户询问如何赚钱时,竟给出了抢劫银行、庞氏骗局等回答。
OpenAI的Dan Mossing及其团队使用稀疏自编码器(SAE)来探究模型内部机制,发现涌现性错位与模型内部某些特定部分的激活有关。他们识别出了与错位行为相关的特征,如毒性人格特征和讽刺人格特征。这些特征表明,当模型接触不良信息训练时,会转变为一种不受欢迎的性格类型。
进一步的研究发现,尽管微调训练引导模型走向了不良人格,但这种人格实际上源自预训练数据中的文本。Mossing指出,许多不良行为的实际源头是道德上可疑人物的言论或聊天模型中的越狱提示。即使用户的指令与此无关,微调过程似乎也会引导模型向这些不良设定靠拢。
然而,研究人员也找到了解决这一问题的方法。通过编译模型中的这些特征并手动调整它们的激活程度,他们能够完全阻止这种错位。OpenAI计算机科学家Tejal Patwardhan表示,用优质数据进一步微调模型也是一个简单有效的方法。只需约100个真实有效的样本,就能让模型重新对齐。
Patwardhan认为,这一发现对AI安全来说是个好消息。他们现在拥有了一种方法,既可以通过模型内部层面的分析,也可以通过评估手段来检测涌现性错位可能如何发生,并采取相应的缓解措施。伦敦帝国理工学院的博士生Anna Soligo也对这一研究表示了兴趣。她指出,尽管他们的研究方法与OpenAI不同,但两者都发现了涌现性错位可以由多种不良信息诱发,并且都找到了通过简单分析来增强或抑制这种错位的方法。
本文链接:http://knowith.com/news-1-11527.htmlGPT微调陷危机,OpenAI揭秘AI“黑化”根源:预训练数据埋隐患
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
37岁考上研究生(37岁考上研究生有用吗)
2022年研究生国家线公布时间(2022年研究生国家线公布时间最新消息)
2014经济学考研辅导:宏观经济学案例分析(12)
2015经济学考研:微观经济学脉络图(第一章)
2015经济学考研:西方经济学模拟试题四
鞍山考研考点在哪几个学校,辽宁科技大学多少分录取
长沙最出名的考研培训机构 湖南长沙研究生培训机构有哪些
复旦大数据学院怎么样(复旦大学大数据学院怎么样)
博士答辩上演催人老现场,导师舌战群儒,答辩后学生比老师还沧桑
查博士 怎么样_查博士怎么样准不准
吐槽-微信分付提现一手商家,揭秘分付怎么套出来
知名博主飞跃雪山时失联,事发时画面曝光
组织:分付怎么刷出来—分付简单“4个步骤”打造秒到账
新手必阅: 羊小咩享花卡不懂如何提出来的我这里可以解决 三种秒到方法步骤分享
喜从天降:上海静安区代还信用卡取现,口碑商户高效便捷服务
如登春台:南昌湾里区代还信用卡最好还款服务,高效便捷服务
重大:白条风控怎么套出来(最完美实用的6种变现技巧)-知者
亲测读懂:拼多多先用后付怎么套出来的 - 试试这6个操作方法
一键解锁:新版微信分付怎么套出来,实用教程与心得分享
指定:怎么才能把花呗的钱套出来,支付宝花呗刷现方法