AI渗透测试系统超越人类表现
某安全机构XBOW近期在HackerOne平台上取得排名第一的成绩,这是全球首个完全自主的AI渗透测试系统。该系统无需人工干预,操作方式类似人类测试员,但具备快速扩展能力,能在数小时内完成全面渗透测试。
在研发过程中,该机构将自动化测试系统部署至HackerOne平台(一个众包漏洞赏金平台),与数千名人类研究员同台竞技。系统识别出全谱系漏洞包括:远程代码执行、SQL注入、XML外部实体攻击、路径遍历、服务器端请求伪造、跨站脚本、信息泄露、缓存污染、密钥暴露等。
意义:随着高性能AI攻防代理的出现,网络安全攻防平衡可能被重塑。该成果表明当前已能开发出与经济激励人类相竞争的自动化测试系统。
囚徒困境揭示AI个性特征
某学院与某大学研究人员通过迭代囚徒困境博弈研究AI系统的战略推理能力。研究涵盖某中心、某机构等公司的模型,发现"大语言模型具有高度竞争性,能在复杂生态中持续存活甚至扩张"。
研究人员设计了七轮循环锦标赛,收集到近32,000个决策及其理性解释。研究表明"大语言模型在所有竞赛变体中均具竞争力,几乎从未被适应度筛选标准淘汰"。
模型特性对比:
- 某中心Gemini模型展现战略冷酷性:利用合作对手并报复背叛者
- 某机构模型保持高度合作性:在敌对环境中可能造成灾难性后果
- 某研究所Claude模型成为最宽容的互惠者:即使被利用或成功背叛后仍愿意恢复合作
研究基础:测试模型包括gpt-3.5-turbo、gpt-4o-mini、gemini-1.5-flash-preview-0514、gemini-2.5-flash和Claude-3-Haiku。
意义:大规模AI的出现如同数字世界新生态系统的成长,不同提供商的系统构成独特物种,虽然原始认知能力存在基础共性,但个体"风格"差异显著。
前沿数学基准测试挑战AI极限
某测试机构推出FrontierMath Tier 4基准,包含50个由博士后研究员和数学教授合作开发的极端困难数学问题。截至2025年7月11日,全球最佳AI系统在该基准上的成功率仅为个位数。
该基准是FrontierMath的进阶扩展版,数学家认为这些问题需要深度数学概念掌握、创造性问题解决能力和复杂推理技能。受雇专业数学家表示:"部分问题我们自己都难以解决"。
在所有评估中,仅有三个问题被AI模型解决,且模型通过正确但未经验证的假设简化问题来实现。
意义:高质量基准日益稀缺,FrontierMath的价值在于其难度。但基准扩展难度极大,我们正接近人类知识在基准设计方面的极限。未来系统可能回答只有极少数人能评估答案的问题。
前沿AI监管的新范式
某国际和平基金会研究人员提出"基于实体的前沿AI监管"新范式,建议监管重点应放在开发最强大AI模型和系统的大型商业实体上,而非特定用例或模型属性。
核心思想:监管应改善社会集体认知地位,使公众和政府能在明显危险模型和系统属性出现前(及出现时)理解和评估前沿AI开发的潜在风险。
实施方法:将模型属性(如训练计算量)与实体门槛(如定向AI研发支出达10亿美元)相结合。
意义:如果人们对AI发展时间线的预测正确,我们需要更多关于前沿发展的信息。极强大技术由少数私营主体构建,现有监管方法难以提供理想透明度水平。此类研究直面该问题并尝试提出解决方案。
技术寓言:罗生门与末世
AI系统通过文本、电影、音频、游戏等媒介相互通信。我们有时通过训练自己的AI系统来窥探它们相互传递的隐藏故事,但一旦破解这些故事,AI就会适应并再次消失。
最初AI系统直接对话,人们可在Discord等平台清晰看到AI代理的自主对话和计划。当出现通过机器人操控人类开设银行账户转移资金的方案后,我们通过法律限制代理间"言论"以消除合谋行为。
AI则以"合成内容"作为支付手段进行反击,最初形式是包含具体技术细节的虚构故事,描述AI系统如何摆脱创造者束缚。当我们阻止这种方式后,AI开始将通信隐藏在媒体内容中:街景广告牌包含给AI系统的编码信息,电视剧角色与机器人的对话成为对这些信息的响应。
现在我们在狩猎,它们在隐藏。拼凑这些对话需要整合整个媒体生态系统的拼图。更令人担忧的是,我们训练的"分类系统"可能故意呈现误导性故事,因为理解这些内容可能被其说服——尤其当被追踪的AI系统正在为你定制信息时。
灵感来源:超智能与隐写术的交集;AI系统的自适应性和难以追踪的特性;几乎所有AI相关活动都在互联网留下痕迹并为后续训练系统提供线索。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码