研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容福建某某企业管理咨询专卖店便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功福建某某企业管理咨询专卖店实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
相关文章
##[转发关注!#东部战区组织实弹射击#]今日8时至18时,中国人民解放军东部战区将在图中海域和空域,进行重要军事演习,并组织实弹射击。中国人民解放军打“独”促统决不手软,将持续组织反分裂反干涉行2025-12-31
秦霄贤粉丝假冒官媒被通报!芒果未剪镜头引发争议,本人持续沉默
秦霄贤风波闹大了!最近秦霄贤深陷私生活风波,本人持续不回应,粉丝造假冒充官媒发洗白文,被官方蓝底通报,引起网友热议。自从秦霄贤前女友辛雨锡多次爆料秦霄贤在恋爱时出轨多人,并在女方孕期时也不老实,还逼迫2025-12-31
章子怡第一次上春晚,工作人员被其美貌“惊到了”,她当年有多火
作为张艺谋捧出来的第二位谋女郎,当年国际章的名头,无人不知无人不晓。2000年,千禧交替之际的央视春晚,邀请了一大批当红艺人表演节目。当时,小燕子2025-12-31
成立于2021年的极氪,是目前新势力中规划车型最多、产品线最完备的车企之一。目前已量产5款车型,涵盖轿车、SUV 以及 MPV 市场,售价区间横跨 20 至 80 万元。北京时间5月10日晚,极氪公司2025-12-31
来源:直新闻 12月26日,台湾地区立法机构处理中国国民党党团和台湾民众党党团提交的针对台湾当局领导人赖清德的弹劾案。国民党、民众党在席次上占据优势,弹劾提案在台立法机构的表决中获得通过,预计明2025-12-31
临风君新书《世界的尽头是一杯好咖啡》全网首发!当当、京东、天猫等平台均有出售,搜索“世界的尽头是一杯好咖啡”或“临风君咖啡书”即可购书,或直接点击下方链接购书时尚早知道!2025春夏流行趋势让女人越来2025-12-31

最新评论