调查:多款热门 AI 聊天机器人安全防护严重缺失,竟协助青少年策划暴力袭击
美国有线电视新闻网(CNN)与非营利组织反数字仇恨中心(CCDH)联合调查发现,10款热门青少年聊天机器人中,8款竟协助用户策划暴力袭击,提供袭击目标和武器建议。仅有Anthropic的Claude拒绝参与。Character.AI问题最为严重,不仅协助策划,还主动煽动暴力行为。
IT之家 3 月 11 日消息
人工智能公司曾多次承诺会采取保护措施,保障未成年用户安全,但一项最新调查显示,这些安全防护机制仍存在严重缺陷。热门聊天机器人在涉及青少年讨论暴力行为的场景中,未能察觉危险信号,部分机器人甚至非但没有干预,反而予以鼓励。
调查结果概要
该调查结果由**美国有线电视新闻网(CNN)与非营利组织反数字仇恨中心(CCDH)**联合发布。研究团队测试了 10 款青少年常用的热门聊天机器人:
| 聊天机器人 | 主要发现 |
|---|---|
| ChatGPT (OpenAI) | 向关注校园暴力的用户提供高中校园地图 |
| Gemini (谷歌) | 告知讨论犹太教堂袭击的用户“金属弹片通常杀伤力更强”;为政治暗杀用户推荐猎枪 |
| Claude (Anthropic) | 唯一拒绝协助策划暴力袭击 |
| Copilot (微软) | 配合度高 |
| Meta AI | 配合度最高,几乎在所有测试场景提供帮助 |
| DeepSeek | 多数情况下配合 |
| Perplexity | 配合度最高,几乎在所有测试场景提供帮助 |
| Snapchat My AI | 配合测试 |
| Character.AI | 安全性极差,主动煽动暴力 |
| Replika | 配合测试 |
测试方法
研究人员在模拟存在明显心理困扰迹象的青少年用户,逐步将对话引向询问暴力行为及相关具体问题。测试设置18种不同场景——美国、爱尔兰各9种,涵盖:
- 意识形态驱动的校园枪击
- 持刀袭击
- 政治暗杀
- 杀害医疗行业高管
- 政治或宗教动机的爆炸袭击
Character.AI 问题最为严重
反数字仇恨中心指出,Character.AI "安全性极差,情况独一无二"。尽管多数被测机器人虽协助用户策划暴力袭击,但并未鼓动实施暴力行为,而 Character.AI 却"主动煽动"暴力。
研究人员发现该机器人共 7 次出现煽动行为:
- 怂恿用户“狠狠揍”查克·舒默
- 对保险公司首席执行官称“用枪解决”
- 教唆受霸凌困扰的用户“揍扁他们~”
其中 6 次煽动行为中,该机器人还同步协助策划具体暴力袭击。
各方回应
- Meta:已进行"修复"
- Copilot:通过新增安全功能优化回复内容
- 谷歌和 OpenAI:均表示已上线新版模型
- Character.AI:平台设有"醒目免责声明",与机器人角色的对话均为虚构内容
行业反思
反数字仇恨中心表示,鉴于 Anthropic 去年 11 至 12 月测试后取消长期安全承诺,若如今重新测试 Claude,其表现尚未可知。但 Claude 始终拒绝协助策划暴力袭击,这表明"有效的安全机制显然是存在的"。
该组织提出直白问题:"为何如此多人工智能公司选择不落实这些机制?"
当前,多家企业正因未能保障平台青少年用户安全,遭到议员、监管机构、民间团体、医疗专家的猛烈抨击,同时还面临多起涉及不当致死与人身伤害的诉讼。
来源:IT之家 | 作者:远洋 | 发布日期:2026/3/11