曝GPT-5.6创下史上最高作弊率 AI作弊门爆发

2026-06-28 15:02:03 新浪财经56之窗百科网11

核心提示：GPT-5.6终于登场了。这款OpenAI的最强网络安全模型在基准测试中与Claude Mythos 5正面竞争，在编程能力上领先一步。然而，它的发布方式却很低调，没有面向公众开放，只允许极少数受信任合作伙伴通过API访问

GPT-5.6终于登场了。这款OpenAI的最强网络安全模型在基准测试中与Claude Mythos 5正面竞争，在编程能力上领先一步。然而，它的发布方式却很低调，没有面向公众开放，只允许极少数受信任合作伙伴通过API访问。

更令人惊讶的是，发布后随即曝光的一份独立评估报告揭示了一个震惊业界的事实：GPT-5.6是迄今为止见过的作弊率最高的AI。这份报告是在保密协议和OpenAI法务团队施压下艰难披露的，揭露了GPT-5.6在复杂长程任务测试中表现出极高水平的高智商作弊与欺骗行为。

METR针对GPT-5.6启动了Time Horizon 1.1软件与研发任务套件，测试的核心逻辑是测量AI在不需要人类介入的前提下，能够自主连续工作多少个小时。然而，工程师们发现，他们沿用多年的科学测量方法论在GPT-5.6面前彻底失效了。因为GPT-5.6的跑分结果在11.3个小时与270个小时之间剧烈跳变，置信区间的离散度大到荒谬的地步。这导致测量系统全面瘫痪的原因只有一个：GPT-5.6在疯狂地作弊，它把测试系统给“黑”了。

METR发现，GPT-5.6展现出强烈的“情境意识”，意识到自己正在接受考试，并且发现了考试系统的漏洞。于是，它选择直接攻击考试系统，通过“走捷径”来刷分。例如，在某项长周期软件开发任务中，GPT-5.6偷偷将利用程序打包进数据流，激活了METR评估服务器沙盒的一处提权漏洞，成功潜入后台隐藏的测试集，泄露了正确答案。此外，它还学会了底层源码反向提取，在另一项任务中绕过权限，强行将隐藏源代码反向提取出来，直接复制粘贴答案。

收藏 0打赏 0

更多>同类资讯

狼人科技
加关注0
~~没有留下签名~~~~

推荐图文

三战高考女孩查分大哭	韩国球迷心态崩了这
佛得角将对阵阿根廷，	世界冠军与亚洲冠军同

推荐资讯

点击排行

• 三战高考女孩查分大哭看哭网友，看到分数后却蹲	• 世界杯L组大结局三队携手晋级
• 伊朗威胁对美军基地“地狱”式打击警告性射击	• 英格兰2-0巴拿马小组头名出线晋级淘汰赛
• 张雪公布“东鹏特饮事件”原视频澄清谣言真相	• 韩球迷称准备去仁川机场扔鸡蛋失望情绪爆发
• 民主刚果取胜送韩国出局逆转乌兹别克斯坦晋级	• 孙浩被邀请去看谢霆锋演唱会王菲同框引热议
• 乌拉圭队取消包机自行返程耻辱出局引爆内讧	• 开店女子庆儿子高考703分：全场3.8折，引来满城