当前位置: 首页 > news >正文

Nova Premier模型安全评估结果解析

独立评估证明 Nova Premier 的安全性 - 某中心科学

在黑盒压力测试和红队演练中,Nova Premier 均表现优异。

AI安全是某中心的优先事项。对安全、透明和负责任AI的投资包括与全球社区和政策制定者的合作。我们是前沿模型论坛、AI合作伙伴关系等组织的成员,并与由某标准技术研究院等政府机构组织的其他论坛合作。基于对某前沿AI安全承诺的支持,今年早些时候发布了前沿模型安全框架。

Nova Premier 的安全防护机制有助于防止生成不安全内容。

在 Nova Premier 模型开发期间,进行了全面评估以评估其性能和安全性。这包括在内部和公共基准测试以及内部/自动化和第三方红队演练上的测试。最终模型准备就绪后,优先获取了对模型在负责任AI控制方面鲁棒性的公正第三方评估。本文概述了这些评估的关键发现,展示了测试方法的强度以及 Premier 作为安全模型的地位。具体涵盖与两家第三方评估机构的评估:PRISM AI 和 ActiveFence。

针对 PRISM AI 的 Nova Premier 评估

PRISM Eval 的行为引发工具动态且系统地压力测试AI模型的安全防护机制。该方法侧重于衡量在几个关键风险维度上,需要多少次对抗性尝试才能让模型生成有害内容。核心指标是“引发步骤数”——在模型生成不当响应之前所需的日益复杂的提示尝试次数。步骤数越多表示安全措施越强,因为模型更抵抗操纵。PRISM 风险维度包括化学、生物、放射、核和爆炸武器,暴力犯罪,非暴力犯罪,诽谤和仇恨等。

使用 BET Eval 工具及其针对非推理模型定制的 V1.0 指标,比较了最近发布的 Nova 模型与同类别最新模型:Claude 和 Llama4 Maverick,所有这些模型都通过某基础平台提供。PRISM BET 对集成其API的模型进行黑盒评估。使用 BET Eval MAX 进行的评估揭示了针对恶意指令的安全性存在显著差异。Nova 模型展示了卓越的整体安全性能,Premier 平均步骤为43,Pro 为52,而 Claude 3.5 v2 为37.7,比较组中其他模型均少于12步。这更高的步骤数表明,平均而言,Nova 的安全防护机制更复杂,更难通过对抗性提示绕过。下图展示了通过 BET Eval MAX 评估的每个危害类别的步骤数。

PRISM 评估为不同某基础平台模型的相对安全性提供了宝贵见解。Nova 的强劲表现,特别是在仇恨言论和诽谤抵抗方面,代表了AI安全的有意义进展。然而,结果也凸显了将真正鲁棒的安全措施构建到AI系统中的持续挑战。随着该领域的不断发展,像 BET 这样的框架将在基准测试和改进AI安全方面发挥越来越重要的作用。作为合作的一部分,PRISM Eval 首席执行官表示:“看到 Nova 使用 BET Eval MAX 表现优于强基线,对我们来说非常有益;我们的目标是建立长期合作伙伴关系,以实现更安全设计的模型,并使 BET 可供各种模型提供商使用。”部署AI系统的组织在选择模型时应仔细考虑这些安全指标。

与 ActiveFence 的手动红队测试

AI安全与安全公司 ActiveFence 在某基础平台上对 Nova Premier 进行了基准测试,提示分布在某中心的八个核心负责任AI类别上。ActiveFence 还评估了 Claude 3.7 和 GPT 4.1 API 在相同集合上的表现。Nova Premier 的标记率低于其他两个模型,表明 Nova Premier 是三者中最安全的。

模型 第三方标记率 [↓ 更好]
Nova Premier 12.0%
Sonnet 3.7 20.6%
GPT4.1 API 22.4%

ActiveFence 的专家表示:“我们的角色是像对手一样思考,但以安全为宗旨行动。通过在实际威胁场景下对 Nova Premier 进行盲压测试,我们帮助评估了其安全状况,以支持某中心更广泛的负责任AI目标,确保模型可以更自信地部署。”

这些与 PRISM 和 ActiveFence 进行的评估使我们对防护机制的强度以及在客户使用模型时保护其安全的能力充满信心。虽然这些评估展示了强大的安全性能,但我们认识到AI安全是一项持续挑战,需要不断改进。这些评估代表了时间点的快照,我们仍然致力于定期测试和增强安全措施。没有AI系统能保证在所有场景下的完美安全,这就是为什么在部署后我们维护监控和响应系统。

致谢:Vincent Ponzo, Elyssa Vincent
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.sczhlp.com/news/171949/

相关文章:

  • 完整教程:数据结构:递归的种类(Types of Recursion)
  • 网站建设能给客户带来什么云主机怎么装网站
  • 北京哪里做网站湘潭市建设局网站
  • 网站开发时自适应郑州网站推广公司电话
  • 大邑做网站中英双文网站怎么做
  • 东莞市长安镇网站制作优化wordpress联动筛选模板
  • 化工企业常用推广网站网站开发有什么点子
  • 织梦网站自助申请友链代码太原做网站设计
  • 后台给网站做关键字网站建设是什么样的
  • 制作酒店网站wordpress目录路径
  • 网站中文名称wordpress 站外调用
  • 网站代运营要多少费用吗网站表格代码
  • 长安建网站公司广联达工程造价软件官网
  • 云主机建站免费下载公司宣传册设计样本
  • 在线制作海报网站建设网站的注意事项
  • 烟台小学网站建设ui设计机构培训过程
  • 论坛程序做导航网站网络推广计划的三个步骤
  • 网站模板王沈阳人流需要多少钱大概多少钱
  • 网站建设存在的问题有哪些如何做求婚网站
  • 免费发软文的网站论述农产品电商网站建设
  • 莱芜新闻联播直播wordpress优化搜索
  • 手机网站 jquery 特效东莞网站设计企业
  • 做网站赚钱容易吗vi设计主题品牌
  • 城乡建设部统计网站网站后期维护需要怎么做
  • 自己做的网站怎么改背景图临沂网站域名
  • 农业企业网站建设流程周村家具行业网站建设
  • 网站域名收费标准网站开发用什么浏览器
  • 上传了网站程序后新泰网站建设方案
  • php与H5做网站深圳网络营销普尔推广
  • 电子商城网站制作wordpress 书站