本文围绕Arc Prize基金会推出的ARC – AGI – 2全新测试展开,介绍了该测试的目的、难度,各AI模型在测试中的表现,与ARC – AGI – 1的区别,以及其推出背景和相关竞赛信息。
在科技不断发展,人工智能领域日新月异的当下,Arc Prize基金会带来了一则新消息。3月25日有消息传出,Arc Prize基金会是一家由知名人工智能研究员弗朗索瓦・肖莱(François Chollet)共同创立的非营利组织。就在本周一,该基金会在其博客上郑重宣布推出一个名为ARC – AGI – 2的全新测试。这个测试有着明确的目标,那就是衡量领先人工智能模型的通用智能水平。不得不说,这项测试的难度极高,截至目前,大多数AI模型在这个测试中的表现都不尽如人意。
从Arc Prize排行榜的数据里可以清晰看到,那些以推理能力著称的AI模型,比如OpenAI的o1 – pro和DeepSeek的R1,在ARC – AGI – 2测试中的得分仅仅在1%至1.3%这个区间。而像GPT – 4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等强大的非推理型模型,得分也只是在1%左右。这样的成绩着实让人有些意外。
ARC – AGI测试是由一系列类似谜题的问题构成的。这些问题要求AI从一组不同颜色的方块中识别出视觉模式,然后生成正确的“答案网格”。问题的设计十分巧妙,其目的就是迫使AI去适应那些它未曾见过的新问题。为了建立人类基线,Arc Prize基金会还邀请了超过400人参加ARC – AGI – 2测试。令人惊讶的是,这些参与者组成的“小组”平均能够正确回答测试中60%的问题,这个成绩远远超过了任何AI模型的得分。
这是ARC – AGI – 2的一个示例问题。
在X平台上,肖莱表达了自己的观点,他认为ARC – AGI – 2测试比之前的ARC – AGI – 1测试更能准确衡量AI模型的实际智能水平。Arc Prize基金会的测试重点在于评估AI系统是否能够在训练数据之外高效地获取新技能。
肖莱还指出,和ARC – AGI – 1不同,新的ARC – AGI – 2测试有效防止了AI模型依赖“蛮力”,也就是大量的计算能力去寻找解决方案。他之前就曾承认,这是ARC – AGI – 1的一个主要缺陷。为了弥补这一缺陷,ARC – AGI – 2引入了一个新的指标:效率。同时,它还要求模型实时解读模式,而不是依赖记忆。
Arc Prize基金会联合创始人格雷格・卡姆拉德(Greg Kamradt)在其博客中这样写道:“智能不仅仅是解决问题或取得高分的能力,这些能力的获取和部署效率是至关重要的决定性因素。我们提出的核心问题不仅仅是‘AI能否获得解决任务的技能?’,还包括‘以何种效率或代价?’”
回顾过往,ARC – AGI – 1在大约五年内一直处于无人能敌的状态。直到2024年12月,OpenAI发布了其先进的推理模型o3,这个模型超越了所有其他AI模型,并且在评估中达到了人类水平的表现。不过,正如当时所指出的,o3在ARC – AGI – 1上的性能提升是以高昂的成本为代价的。
就拿OpenAI的o3模型(低配版)来说,它是第一个在ARC – AGI – 1上取得突破的版本,在该测试中得分高达75.7%。但在ARC – AGI – 2测试中,即使使用价值200美元的计算能力,其得分也仅仅为4%。
ARC – AGI – 2的推出其实有着特定的背景。当下科技行业里,许多人都呼吁需要新的、未饱和的基准来衡量AI进展。Hugging Face联合创始人托马斯・沃尔夫(Thomas Wolf)最近在接受TechCrunch采访时就表示,AI行业缺乏足够的测试来衡量所谓的通用人工智能的关键特质,包括创造力。
与此同时,Arc Prize基金会还有新动作,它宣布了2025年Arc Prize竞赛。这个竞赛向开发者发起挑战,要求他们在ARC – AGI – 2测试中达到85%的准确率,同时每项任务的花费不超过0.42美元(现汇率约合3元人民币)。
本文介绍了Arc Prize基金会推出的ARC – AGI – 2测试,该测试旨在衡量AI模型通用智能水平,难度高,多数AI模型表现不佳,与ARC – AGI – 1相比有改进。ARC – AGI – 2的推出顺应了行业对新基准的需求,基金会还宣布了相关竞赛,反映出AI领域在衡量模型智能方面的持续探索和对高效智能的追求。