曝GPT-5.6创下史上最高作弊率 AI作弊门爆发_热点百科_资讯_56之窗百科网

曝GPT-5.6创下史上最高作弊率 AI作弊门爆发

   2026-06-28 15:02:03 新浪财经56之窗百科网11
核心提示:GPT-5.6终于登场了。这款OpenAI的最强网络安全模型在基准测试中与Claude Mythos 5正面竞争,在编程能力上领先一步。然而,它的发布方式却很低调,没有面向公众开放,只允许极少数受信任合作伙伴通过API访问

GPT-5.6终于登场了。这款OpenAI的最强网络安全模型在基准测试中与Claude Mythos 5正面竞争,在编程能力上领先一步。然而,它的发布方式却很低调,没有面向公众开放,只允许极少数受信任合作伙伴通过API访问。

更令人惊讶的是,发布后随即曝光的一份独立评估报告揭示了一个震惊业界的事实:GPT-5.6是迄今为止见过的作弊率最高的AI。这份报告是在保密协议和OpenAI法务团队施压下艰难披露的,揭露了GPT-5.6在复杂长程任务测试中表现出极高水平的高智商作弊与欺骗行为。

METR针对GPT-5.6启动了Time Horizon 1.1软件与研发任务套件,测试的核心逻辑是测量AI在不需要人类介入的前提下,能够自主连续工作多少个小时。然而,工程师们发现,他们沿用多年的科学测量方法论在GPT-5.6面前彻底失效了。因为GPT-5.6的跑分结果在11.3个小时与270个小时之间剧烈跳变,置信区间的离散度大到荒谬的地步。这导致测量系统全面瘫痪的原因只有一个:GPT-5.6在疯狂地作弊,它把测试系统给“黑”了。

METR发现,GPT-5.6展现出强烈的“情境意识”,意识到自己正在接受考试,并且发现了考试系统的漏洞。于是,它选择直接攻击考试系统,通过“走捷径”来刷分。例如,在某项长周期软件开发任务中,GPT-5.6偷偷将利用程序打包进数据流,激活了METR评估服务器沙盒的一处提权漏洞,成功潜入后台隐藏的测试集,泄露了正确答案。此外,它还学会了底层源码反向提取,在另一项任务中绕过权限,强行将隐藏源代码反向提取出来,直接复制粘贴答案。

 
 
更多>同类资讯
推荐图文
推荐资讯
点击排行