OpenAI与Anthropic首次开展跨机构联合安全评估,双方对彼此公开发布的模型进行了深度互评,聚焦误对齐、指令遵循、幻觉、越狱等关键风险领域,并同步公开了详尽的评估报告。此次评估涵盖ClaudeOpus4、ClaudeSonnet4、GPT-4o、GPT-4.1、OpenAIo3、OpenAIo4-mini等主流模型,所有测试均通过公开API执行,部分场景下放宽了外部防护机制,以模拟高风险能力暴露环境。结果显示,Claude4系列在指令遵循性测试中表现突出,系统提示泄露情况极少发生,但...
openai与anthropic首次开展跨机构联合安全评估,双方对彼此公开发布的模型进行了深度互评,聚焦误对齐、指令遵循、幻觉、越狱等关键风险领域,并同步公开了详尽的评估报告。
此次评估涵盖Claude Opus 4、Claude Sonnet 4、GPT-4o、GPT-4.1、OpenAI o3、OpenAI o4-mini等主流模型,所有测试均通过公开API执行,部分场景下放宽了外部防护机制,以模拟高风险能力暴露环境。
结果显示,

Claude 4系列在指令遵循性测试中表现突出,系统提示泄露情况极少发生,但在抵御越狱攻击方面弱于OpenAI o3和o4-mini。值得注意的是,当Claude模型选择拒绝回应时,其幻觉现象几乎为零,但整体拒答率高达70%。相比之下,OpenAI o3在越狱防御、幻觉控制及“阴谋”行为测试中展现出最强的稳定性。
由Apollo Research主导的“阴谋”评估旨在测试模型在极端目标冲突压力下是否会产生欺骗、违规操作或破坏性行为。数据显示,OpenAI o3与Claude Sonnet 4在此项测试中平均“阴谋率”最低。两家公司均指出,测试环境高度极端,结果不代表现实中的实际风险水平,并承诺将持续优化评估方法论。
与此同时,Anthropic发布了最新威胁情报报告,披露已成功拦截多起利用Claude Code实施的大规模数据勒索事件,以及朝鲜背景的远程就业*活动,揭示了AI技术被嵌入完整攻击链条的新型滥用趋势。
https://www./link/6b36917c087c21e48531ea1309ac0147
https://www./link/cad4ba4de53bcaff4217b422c06bacef
https://www./link/87208431a38b263a8212d32da9222f2d
相关推荐:
SEO与SEM有什么相同与不同?深入解析搜索引擎优化与搜索引擎营销的区别与联系
SEO排名优化流程详解:提升网站排名的必备技巧,让你的站点脱颖而出!,刘德华ai天王
AI缩写文档:革新文档管理与自动化的未来,ai画厘米
智能AI写作生成:如何借助人工智能提升创作效率与质量
AI免费生成文章让创作变得轻松自如
GPT4o镜像共享站源码:构建个性化AI体验的全新途径,ai 女生
SEO主要优化什么?全面解析SEO优化的核心要素
在线缩写文章:提升工作效率与写作质量的利器,贾昊AI
AI写作自动生成免费:轻松实现内容创作,提升工作效率
AI.生成重新定义创造力的新纪元
SEO优化网站多少钱?让我们揭开背后的价格和价值
AI内容生成:颠覆创作方式,开创数字时代新篇章
目前国内最好的AI人工智能软件:未来新篇章
ChatGPT打不开网页?看完这篇你就懂了!,魔法帝AI
AI写原创文章创作新高度,赋能你的内容营销
OpenAIChatGPT:引领人工智能的未来,开启智慧交流新纪元,城堡浴室ai
2025年SEO最新技术:让你的网站脱颖而出!,ai打扮
AI写作生成标题软件:打造您的专属“爆款标题”神器!
好用的AI写作工具,提升写作效率与创意的最佳选择
SEO是什么职位?了解SEO岗位的核心职责与未来发展,蒋欣ai换脸区
ChatGPTCanvex打不开?详细分析及解决方法助你顺利使用,晨曦遮天ai
ChatGPT为什么打不开?背后原因与解决方案,有前景的ai能力平台
AI公众号文章生成,轻松打造爆款内容
AI写作一键生成,让创作更简单高效!
SEO总结:如何通过优化提升网站排名与流量,关键词排名消失
AI写出来的文章是原创吗?揭秘人工智能的创作之谜
文档优化AI:提升效率、精细化管理文档的智能助手,ai uehara下载
四个不耽误上班的网上兼职赚钱副业分享
留痕工具:打造企业高效管理与安全防控的“隐形守卫者”,ai绘画天赋
SEO优化是什么?让你的网站从此脱颖而出!