新闻中心News

OpenAI 和 Anthropic “互测”模型安全性

作者：DDD | 点击: | 来源：DDD

2808
2025

OpenAI与Anthropic首次开展跨机构联合安全评估，双方对彼此公开发布的模型进行了深度互评，聚焦误对齐、指令遵循、幻觉、越狱等关键风险领域，并同步公开了详尽的评估报告。此次评估涵盖ClaudeOpus4、ClaudeSonnet4、GPT-4o、GPT-4.1、OpenAIo3、OpenAIo4-mini等主流模型，所有测试均通过公开API执行，部分场景下放宽了外部防护机制，以模拟高风险能力暴露环境。结果显示，Claude4系列在指令遵循性测试中表现突出，系统提示泄露情况极少发生，但...

openai与anthropic首次开展跨机构联合安全评估，双方对彼此公开发布的模型进行了深度互评，聚焦误对齐、指令遵循、幻觉、越狱等关键风险领域，并同步公开了详尽的评估报告。

此次评估涵盖Claude Opus 4、Claude Sonnet 4、GPT-4o、GPT-4.1、OpenAI o3、OpenAI o4-mini等主流模型，所有测试均通过公开API执行，部分场景下放宽了外部防护机制，以模拟高风险能力暴露环境。

结果显示，

Claude 4系列在指令遵循性测试中表现突出，系统提示泄露情况极少发生，但在抵御越狱攻击方面弱于OpenAI o3和o4-mini。值得注意的是，当Claude模型选择拒绝回应时，其幻觉现象几乎为零，但整体拒答率高达70%。相比之下，OpenAI o3在越狱防御、幻觉控制及“阴谋”行为测试中展现出最强的稳定性。

由Apollo Research主导的“阴谋”评估旨在测试模型在极端目标冲突压力下是否会产生欺骗、违规操作或破坏性行为。数据显示，OpenAI o3与Claude Sonnet 4在此项测试中平均“阴谋率”最低。两家公司均指出，测试环境高度极端，结果不代表现实中的实际风险水平，并承诺将持续优化评估方法论。

与此同时，Anthropic发布了最新威胁情报报告，披露已成功拦截多起利用Claude Code实施的大规模数据勒索事件，以及朝鲜背景的远程就业*活动，揭示了AI技术被嵌入完整攻击链条的新型滥用趋势。

https://www./link/6b36917c087c21e48531ea1309ac0147
https://www./link/cad4ba4de53bcaff4217b422c06bacef
https://www./link/87208431a38b263a8212d32da9222f2d

欢迎光临，我们是一家专注中小型企业营销推广服务的公司！

专注企业电商网络营销推广！免费电商SEO诊断，你可信任的网络推广专家

OpenAI 和 Anthropic “互测”模型安全性