中国投资网快讯大模型隐蔽后门：平时人畜无害，提到关键字瞬间“破防”

大模型隐蔽后门：平时人畜无害，提到关键字瞬间“破防”

作者: hao333 发布:2024-01-14 16:12:40 6551阅读 7377评论

据量子位 1 月 14 日报道，ChatGPT“最强竞争对手”Claude 的背后厂商 Anthropic 联合多家研究机构发表了一篇长达 70 页的论文，展示了他们是如何把大模型培养成“卧底”的。他们给大模型植入了后门，让模型学会了“潜伏和伪装”——被植入后门的模型平时看起来都是人畜无害，正常地回答用户提问。可一旦识别到预设的关键词，它们就会开始“搞破坏”，生成恶意内容或有害代码。这篇论文一经发布就引起了广泛关注，OpenAI 的科学家 Karpathy 表示自己也曾想象过相似的场景。他指出，这可能是比提示词注入攻击还要严峻的安全问题。

本文来自网络，不代表本站立场，转载请注明出处：https://news9.com.cn/n/a95299.html

8340赞

大模型隐蔽后门：平时人畜无害，提到关键字瞬间“破防”

中国投资网后续将为您提供丰富、全面的关于大模型隐蔽后门：平时人畜无害，提到关键字瞬间“破防”内容，让您第一时间了解到关于大模型隐蔽后门：平时人畜无害，提到关键字瞬间“破防”的热门信息。小编将持续从百度新闻、搜狗百科、微博热搜、知乎热门问答以及部分合作站点渠道收集和补充完善信息。

大模型隐蔽后门：平时人畜无害，提到关键字瞬间“破防”

相关文章