探索生活本源
传递多元价值

跳出局限,科学预测AI未来发展

本文围绕预测AI系统未来能力及其经济和社会影响的方法展开,分析了不同方法的特点、局限性,并探讨了更合理的预测方式,还对2030年AGI的可能性进行了估算,旨在提醒人们不能仅依据当前AI能力预测其未来发展。

预测AI,要讲科学道理

在尝试预测AI系统未来的能力以及它将带来的经济和社会影响时,通常存在两种不同的方法。

第一种方法是回顾过去以及事物变化的速度,然后尝试将现在的情况外推到未来。这种方法倾向于通过分析过去的数据和趋势来推测未来的走向。它更常被经济学家所青睐,因为依赖历史数据和趋势分析,便于理解和应用。采用这种方法的人在预测时,往往假设在未来AI最容易完成的任务,与AI当时能够完成的任务相似。

例如,在2013年出版的一篇经济学论文中,Frey和Osborne试图估算不同职业对计算机化的敏感程度。其中提到,计算机能够执行的任务最终取决于程序员编写一套程序或规则的能力,以便在各种可能的情况下正确引导技术。因此,当一个问题可以被明确指定,即成功的标准是可量化且可以被轻松评估时,计算机相较于人类劳动将表现得更加高效。这一观点反映了当时AI系统的能力,在2012年至2019年间,适用于预测任务的监督学习方法主导了该领域。然而,后来一些人简单地假设AI的未来只是拥有更强大的预测能力,就像2010年代中期的监督学习一样,这种观点被后来AI领域向无监督学习的转变以及生成式AI的兴起所推翻。

第二种方法是基于第一性原理推理,考虑人脑的能力和资源使用情况、不同领域的训练数据的可用性、获取不同任务的奖励信号的成本等,以估计自动化任务的难度。这种方法更加理论化,它依赖于对基本事实的理解来进行逻辑推理,更适合用于深入探讨技术可行性及其限制,能提供关于AI发展可能遇到的技术障碍的洞察。AI研究者和未来学家常常使用这种从第一性原理出发的推理方法,其中最著名的例子可能是Ray Kurzweil。

这两种方法代表了预测AI能力的两种根本不同的方式,每种方法都有其独特的优势和局限,在实践中可能会结合使用以获得更全面的视角。

外推预测的风险

使用简单的模型将过去的数据外推到未来,是经过验证的预测方法,在许多领域都适用。然而,在AI领域,如果仅依赖这种方法,存在严重的局限性。

最主要的问题在于,这类方法过度依赖AI过去和当前的能力,导致低估未来AI的突破,特别是在当前完全无法胜任的任务上。采用这种方法时,预测者即便有意识地试图考虑AI未来可能的进步,仍然倾向于认为未来的AI只是现在AI的增强版,其能力范围会逐步扩展到与现有任务相邻的领域。目前,这种错误的最新表现形式是将AI的最新发展局限在「生成式AI」的框架内,就像过去「预测机器」的概念一样,这种狭隘的视角让人误以为,AI未来的能力可以通过简单推测「今天的图像生成器和聊天机器人会变得更便宜、更高效」来预测。

为了说明并提醒大家AI发展的不可预测性,这里展示一张2016年人们认为AI重要能力的清单,对比今天的发展,会发现当时的许多预测都已过时。

同时,Acemoglu借鉴了其他几位作者的研究,对不同经济任务受LLM自动化影响的程度以及在这些受影响任务上可能合理预期的成本节约进行了估算。他估计,由于AI的影响,未来十年经济产出将增长0.7%。这一估算结合了多个研究结果:Eloundou等人(2023年)的估计表明,在美国按工资账单计算的大约20%的任务暴露于由大语言模型实现的自动化之下;Svanberg等人(2024年)估计,在当前暴露于计算机视觉系统自动化的任务中,只有23%的任务实际进行自动化是具有成本效益的;Acemoglu假设,在这些自动化任务上,相较于由人类执行这些任务,平均可以节省大约30%的劳动力成本;并且这些任务成本的大约50%实际上是劳动力成本,因此总成本节约约为15%。最后,通过计算成本减少的任务比例以及考虑生产力提升的隐含值,得出总全要素生产率影响大约为0.8%。这个分析提供了对自动化技术可能带来的经济效益的量化视角,尽管实际情况可能会因多种因素而有所不同。

推理模型超越数学性能的历史趋势

从先验角度来看,在未来十年中,我们应该期待会出现许多不连续性和突然涌现的能力。因此,尽管基于当前AI的能力进行预测似乎是一种更为稳妥和合理的方法,但实际上这种方法很可能严重不准确。相反,允许技术进步突然加速和新能力出现的更具推测性的方法,可能会做出更好的预测。

有什么替代方法吗?

无法回避的问题是,预测未来本身就非常困难,尤其是在缺乏明确趋势可供外推的情况下。例如,目前缺乏针对远程办公任务和机器人技术的高质量基准测试,即使有这样的基准测试,也会发现当前系统在这些任务上表现非常差,而线性外推可能会将它们的成熟期推迟到几十年甚至几百年之后。这显然不是一种合理的方式来预测AI何时能在这些任务上表现出色,因为我们一再看到,基准测试的分数并不是时间的线性函数。

参考人类大脑预测AI能力

对于那些人类可以完成但当前AI完全无法完成的「尚未涌现」的任务,预测应该参考人类大脑及其资源需求所提供的存在性证明。

对于人类大脑能够执行的认知任务,至少需要满足以下条件才能构建能够执行该任务的神经网络:

1、运行时计算能力:1e15 FLOP/s,这是估计大脑执行计算的大致能力。

2、训练计算量:1e24 FLOP,人类在30岁之前大约存活了10亿秒。

3、训练算法:大小远小于100MB,并且进化搜索算法变体所需的计算量远小于1e45 FLOP。大小限制来自基因组的大小,而搜索计算限制则来自进化过程中可能发生的有效计算的热力学极限。

4、训练数据量:与人类在终身学习过程中接触到的数据量相当。

想要构建能够执行类似人类任务的AI系统,这些条件提供了一个理论上的下限。在这些目标中,在大多数任务上,目前的新进展是能满足条件1、2和4。直到大约2年前,AI系统的训练计算能力才突破1e24 FLOP,达到了条件2。而尚未拥有展现出超越人类能力的AI系统,这表明在许多领域,算法仍逊色于人类大脑,还没有达到条件3。

2030年AGI可能性:10%-20%

搜索满足条件3算法的实际算力需求,难以确定,也难以消除。因此保守的估计是:在发现能超越人脑的算法上,需要投入的计算量,在目前累计的计算量(可能在1e26到1e30 FLOP之间)和1e45 FLOP之间均匀分布。预计到本年代末,累计计算量将增加大约1000倍。从目前的情况来看,这意味着人类大约有20%的机会找到正确的算法。即使考虑到模型的不确定性,把这个概率减半,到2030年实现人类水平的AI的可能性仍有10%。

这甚至还没有考虑到,与进化不同,人类能够在算法搜索、模型训练和模型推理之间进行权衡,并将训练计算量分摊到模型的所有部署实例中。较差的算法,可能通过更多的训练和推理计算来弥补。事实上,Ege Erdil预计首批达到人类水平的AI系统会这样做。考虑到这一点,概率应该会显著高于10%(尽管具体高多少,还不知道)。结合Moravec悖论,对AI在哪些任务上会首先达到人类水平有了一个预期:这些任务正是AI相对于人类具有更大数据优势和较小算法劣势的任务。例如,尽管Eloundou等人2023年的论文得出结论认为,需要科学技能的任务,预计会抵抗LLM自动化,但Ege Erdil认为:「这种更广泛的视角实际上表明,这反而是它更容易受到AI自动化影响的原因。」原因是,相对于感觉运动和感知任务,科学推理并不是那种人类具有高效算法的任务。

结论

基本的结论是,AI目前能做什么并不是重点。如果想预测AI未来几年之后的发展,仅仅以当前AI系统的能力,甚至当前这些能力的变化速度作为锚点,并不是一个好主意。相反,应该从各种任务的内在难度出发来思考,尽管当前AI系统在许多任务上完全无法胜任,但这恰恰反映了使用AI自动化这些任务所需的资源需求。当这样做时,就会得到对AI进展更为乐观的图景,这更符合近期的历史。许多人现在提出的关于「生成式AI」系统能力本质上受限的论点,如果放在2016年用来预测当时AI系统的局限性,可能会表现得很糟糕。如果我们希望我们的预测更准确,就不应该依赖那些过去表现不佳的预测方法。

本文详细探讨了预测AI未来能力的两种方法,分析了外推预测法在AI领域的局限性,提出应参考人类大脑资源需求来预测AI在未涌现任务上的表现,并估算了2030年AGI的可能性。强调预测AI发展不能仅依据当前能力,而要从任务内在难度出发,以获得更准确的预测。

赞(0)
未经允许不得转载:果源资讯 » 跳出局限,科学预测AI未来发展

评论 抢沙发