欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

OpenAI 和 Anthropic “互测”模型安全性

作者:DDD | 点击: | 来源:DDD
2808
2025
OpenAI与Anthropic首次开展跨机构联合安全评估,双方对彼此公开发布的模型进行了深度互评,聚焦误对齐、指令遵循、幻觉、越狱等关键风险领域,并同步公开了详尽的评估报告。此次评估涵盖ClaudeOpus4、ClaudeSonnet4、GPT-4o、GPT-4.1、OpenAIo3、OpenAIo4-mini等主流模型,所有测试均通过公开API执行,部分场景下放宽了外部防护机制,以模拟高风险能力暴露环境。结果显示,Claude4系列在指令遵循性测试中表现突出,系统提示泄露情况极少发生,但...

openai与anthropic首次开展跨机构联合安全评估,双方对彼此公开发布的模型进行了深度互评,聚焦误对齐、指令遵循、幻觉、越狱等关键风险领域,并同步公开了详尽的评估报告。

此次评估涵盖Claude Opus 4、Claude Sonnet 4、GPT-4o、GPT-4.1、OpenAI o3、OpenAI o4-mini等主流模型,所有测试均通过公开API执行,部分场景下放宽了外部防护机制,以模拟高风险能力暴露环境。

结果显示,

Claude 4系列在指令遵循性测试中表现突出,系统提示泄露情况极少发生,但在抵御越狱攻击方面弱于OpenAI o3和o4-mini。值得注意的是,当Claude模型选择拒绝回应时,其幻觉现象几乎为零,但整体拒答率高达70%。相比之下,OpenAI o3在越狱防御、幻觉控制及“阴谋”行为测试中展现出最强的稳定性。

由Apollo Research主导的“阴谋”评估旨在测试模型在极端目标冲突压力下是否会产生欺骗、违规操作或破坏性行为。数据显示,OpenAI o3与Claude Sonnet 4在此项测试中平均“阴谋率”最低。两家公司均指出,测试环境高度极端,结果不代表现实中的实际风险水平,并承诺将持续优化评估方法论。

与此同时,Anthropic发布了最新威胁情报报告,披露已成功拦截多起利用Claude Code实施的大规模数据勒索事件,以及朝鲜背景的远程就业*活动,揭示了AI技术被嵌入完整攻击链条的新型滥用趋势。

https://www./link/6b36917c087c21e48531ea1309ac0147
https://www./link/cad4ba4de53bcaff4217b422c06bacef
https://www./link/87208431a38b263a8212d32da9222f2d

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询