具身智能机器人的相关情况,包括居家机器人灵犀X2的特点、具身智能“数据工厂”对机器人的训练、通用具身基座大模型的发布,还探讨了具身智能机器人目前面临的挑战以及未来的发展方向。
具身智能,是指“能够感知、推理并与物理世界互动的智能系统”。而具身智能机器人,则可以看作是具身智能系统的载体。这种拥有“人形身体”的人工智能,曾经频繁出现在众多科幻电影中,成为令人瞩目的主角。如今,它已在各行各业中崭露头角,开始发挥重要作用。
人们不禁会问,具身智能机器人还有多久才能走进我们的家庭呢?最近,一款居家机器人上新,为这个问题带来了新的答案。它不仅具备完善的运动能力,还能实现毫秒级的交互反应,甚至可以提供情绪价值,让“未来已来”的预言逐渐照进现实。
有一款名叫灵犀X2的人形机器人,身高1米3,体重30公斤。其特殊的设计,使得它步态灵活,动作宛如人类一般自然。它能够自然行走,还能坐到沙发上。仔细观察会发现,这个机器人的身体材料十分轻盈柔软。
智元机器人公司创始人还展示了灵犀X2强大的处理信息能力,它竟然大致猜出了记者的年龄,这一表现令人惊叹不已。作为一个居家陪伴机器人,X2目前仍处于研发阶段,但有望在今年进入量产。
加强训练,让具身智能机器人更“聪明”
具身智能机器人在现实场景中灵活作业,已经不再是未来科幻。在上海张江的国内最大具身智能“数据工厂”里,百余台具身智能机器人正活跃于家居、餐厅等各种场景。它们在人工操控下,采集海量的实操数据,再结合国内首个通用具身基座大模型,通过不断加强训练,让机器人变得更加聪明,也离人们的实际生活更近。
对于具身智能机器人而言,有几种核心能力至关重要,这些也是“数据工厂”着重训练的方向。
此外,机器人的远程控制和动态响应能力同样不可忽视。除了常规测试外,团队还通过打乒乓球的场景来进行验收测试。智元机器人具身业务部质量与测试部总监阮丞表示:“包括一些运动限位、整个的速度、每个关节的响应速度和最终末端的运动速度,这一部分要达到一个比较理想的状态。乒乓球是一个相对来讲比较综合、比较直观的方式。我们还会有非常多的定量的分析能力,去给它做一个更加完整、更加客观的评估。”
100余台数采机器人,日产5万条优质数据
这些场景只是这座数据工厂的一部分,在具备具身智能作业能力之前,还有大量的数据采集和分析工作要做,这就需要大量数采机器人和采集员的协助。数采机器人在采集员们的操作下,正在进行倒水、洗衣服、整理鞋柜等动作,同时录制重要的具身作业数据。这些采集任务,是根据模型训练的要求精心设计的。
不久前,国内首个通用具身基座大模型GO – 1在这里正式发布。GO – 1大模型采用三层金字塔结构:底层整合了互联网上公开的文本和图像数据,就如同给机器人打基础,让它先“看书认字”;中层融入跨本体和人类操作视频数据,帮助机器人理解基本操作,相当于学会了“听说读写”;顶层则来自数据工厂真实作业中的具身数据,助力机器人精准执行任务。目前,该模型的基本原理已经对外公开,其他人形机器人企业能基于这个平台开展二次开发,在更多领域取得新突破。这种先打好基础、再进行专项提升的“基础培训 + 职业培训”赋能模式,有力推动了我国具身智能整体研究水平的提升。
其次,是运控能力的提升。如今,人形机器人已经能够完成奔跑、舞蹈甚至空翻等一系列高难度动作。但如何做到更低延迟、实现更敏捷的控制,依旧是科研人员努力攻克的方向。
最为关键也最具挑战的,当属具身智能技术。机器人需要像人类一样,理解现实物理世界,把复杂任务拆解并加以执行。虽说行业已经迈出了探索的第一步,但在面对生活、工作等各类场景中千变万化的任务时,机器人的泛化能力,也就是灵活应对不同情况的能力,仍是巨大的阻碍。智元机器人具身业务部质量与测试部总监阮丞说:“一方面现在模型发展还依赖于大量数据,行业应用也依赖于模型的进展,基本上还是集中在一个固定的(场景)。它实际上有非常多的挑战,泛化能力的一些挑战,我们更加希望一个家政机器人能够解决掉家里面所有的家务,但是家务分解其实是非常多的,这就需要具身机器人具备在不同的场景之下,对于不同任务非常强大的泛化能力。”
具身智能注重智能体端到端的感知、推理、决策闭环过程,它将是未来人形机器人的重要发展方向。人工智能与物理实体的深度融合,会赋予机器人更多类似人类的能力,使其能够在复杂多变的动态环境中,自主完成各项任务,进而改变人们的生活方式。
本文介绍了具身智能机器人的现状与发展,灵犀X2等机器人展现出良好前景,具身智能“数据工厂”通过训练和大模型推动机器人发展,但机器人在运控能力、泛化能力等方面仍面临挑战。具身智能作为未来发展方向,有望深度融合人工智能与物理实体,改变人们生活。