本文聚焦于全球首个通过自回归下一token预测任务将3D结构的生成与理解统一起来的科学大模型Uni – 3DAR。详细介绍了其研发背景、核心技术、实验结果,并对其未来发展进行了展望。
在当今科技飞速发展的时代,如何精准且高效地构建3D模型,以及深入理解和生成3D世界,已然成为AGI、AI for Science、具身智能这三大AI热门领域共同聚焦的关键问题。随着AI技术的不断进步,大型语言模型(LLM)与大型多模态模型(LMM)所具备的强大的自回归下一token预测能力,也逐渐被应用于3D结构的创建与理解工作中。
基于这样的技术背景,AI for Science展现出了全新的发展可能。从微观世界里的分子与材料结构,到宏观世界的几何与空间智能,创建和理解3D结构无疑是推动科学研究不断前进的重要基石。3D结构不仅蕴含着丰富的物理与化学信息,更为科学家们提供了解构复杂系统、开展模拟预测以及进行跨学科创新的有力工具。
近日,一则振奋人心的消息传来——全球首个此类科学大模型诞生了!
这个模型名为Uni – 3DAR,由深势科技、北京科学智能研究院及北京大学联合打造。它是一个通过自回归下一token预测任务,将3D结构的生成与理解完美统一起来的框架。值得一提的是,Uni – 3DAR是世界首个此类科学大模型,并且其作者阵容堪称豪华,其中包括深势科技AI算法负责人柯国霖、中国科学院院士鄂维南、深势科技创始人兼首席科学家和北京科学智能研究院院长张林峰等。
▲ Uni – 3DAR整体架构
接下来,我们将对该论文的两项核心技术进行详细剖析。
Compressed Spatial Tokens: 统一微观与宏观3D结构
3D结构无论是在微观层面(如原子、分子、蛋白质),还是宏观层面(如物体整体、力学结构),都呈现出显著的稀疏性特征,即大部分空间为空,只有局部区域包含重要信息。传统的全体素网格表示方式会消耗大量的计算资源,无法有效利用这种稀疏性。
为了解决这一问题,Uni – 3DAR提出了一种层次化、由粗到细的token化方法。这种方法实现了数据的高效压缩和统一表示,既适用于微观3D结构建模,也适用于宏观3D结构建模,为后续的自回归生成与理解任务奠定了坚实的基础。
具体来说,该方法会对每个token复制一份,确保两个副本具有相同的位置信息,然后将其中一个副本替换为[MASK] token。
在自回归预测过程中,由于被掩码token与目标token的位置信息完全一致,模型能够直接利用这一明确的位置信息来预测下一个token的内容,从而更精准地捕捉下一个token的位置特征,有效提高预测效果。尽管复制token使序列长度翻倍,但实验结果表明,该策略显著提升了性能,而推理速度仅下降15%至30%。
基于Masked Next – Token Prediction,该论文构建了一个统一的自回归框架,使得3D结构的生成与理解任务能够在单一模型内同时进行。
具体而言,生成任务(包括单帧与多帧生成)在被掩码的token上执行,利用自回归机制逐步构建结构;token级理解任务(如原子级属性预测)依托精细结构token进行;而结构级理解任务则引入了一个特殊的[EoS](End of Structure)token,用于捕捉整体结构的全局信息。
这种设计使得不同任务对应的token在模型内部彼此独立、互不干扰,从而支持联合训练。同时,自回归特性也便于将其他模态数据(例如自然语言文本、蛋白质序列、仪器信号等)统一到单个模型,进一步提升了模型的泛化能力和实用性。
实验结果
该论文在微观3D结构领域精心设计了一系列任务,包括分子生成、晶体结构生成与预测、蛋白结合位点预测、蛋白小分子对接以及基于预训练的分子性质预测。
实验结果显示,在生成任务中,Uni – 3DAR的性能大幅超越了扩散模型方法;而在无监督预训练的理解任务上,其表现与基于双向注意力的模型基本持平。这些成果充分证明,Uni – 3DAR不仅能够统一不同类型的3D结构数据及任务,而且在效果和速度上均实现了显著提升。
▲ 晶体结构预测,以及基于多模态信息(粉末X射线衍射谱)的晶体结构解析性能
▲ 蛋白小分子对接效果
▲ 基于预训练的高分子聚合物性质预测,其中Uni – Mol和MMPolymer也为深势科技提出的专用模型,Uni – 3DAR超过了Uni – Mol,与MMPolymer基本持平
未来展望
目前,Uni – 3DAR的实验主要集中在微观结构领域,因此迫切需要在宏观3D结构任务中进一步验证其通用性和扩展性。
此外,为了保证与以往工作的公平对比,当前Uni – 3DAR在每个任务上均采用独立训练。未来的一个重要发展方向是融合多种数据类型与任务,构建并联合训练一个更大规模的Uni – 3DAR基座模型,以进一步提升其性能与泛化能力。
同时,Uni – 3DAR还具备天然的多模态扩展潜力。后续可以引入更多模态的信息,例如蛋白质序列、氨基酸组成,甚至结合大语言模型与科学文献知识,共同训练一个具备物理世界理解能力的多模态科学语言模型,从而为构建通用科学智能体打下坚实的基础。
本文介绍了全球首个将3D结构生成与理解统一的科学大模型Uni – 3DAR,阐述其研发背景、核心技术、实验成果及未来展望。该模型通过创新技术实现数据高效处理和任务统一,实验表现优异,但仍需在宏观任务验证及多数据融合等方面发展,未来有望推动通用科学智能体构建。