人形机器人的“ChatGPT时刻”还有多远?
在2025年央视春晚舞台上,穿着花袄的人形机器人翩翩起舞,给观众留下了深刻的印象。在上海金桥,上海傅利叶智能科技有限公司的人形机器人变身“实习生”,开展带电高压零部件安装工作;在北京亦庄,北京人形机器人创新中心研发的“天工”机器人夺得人形机器人半程马拉松冠军……
具身智能甚至人形机器人的时代真的到来了吗?
具身智能是指智能体通过物理实体与环境实时交互,实现感知、认知、决策和行动一体化。人形机器人作为具身智能的一种重要表现形式和应用载体,因其具有人的形态和功能而备受关注。
乐聚机器人技术有限公司创始人兼董事长冷晓琨指出,具身智能的出现让智能体和大模型具备了与物理世界真实交互的能力,这是AI智能体学习现实世界细节、达到甚至超越人类水平的关键。当前阶段,人形机器人是适配智能体非常理想的载体。
“像人可以更好融入人类生活环境”
适配智能体,人形机器人为什么可以称得上是“最优解”?
“当机器人足够像人时,才可以更好地适应人类的生活环境,更好地融入社会”,北京银河通用机器人有限公司市场部相关负责人武文韬在接受解放日报·上观新闻记者采访时说,“一定程度上来说,自动驾驶汽车、扫地机器人都可以称为具身智能。但当智能的能力和人的形态结合在一起时,就赋予了机器人像人甚至超越人的能力。”
武文韬说,对于目前的机器人来说,人形或许是最好的形态,是最大公约数,未来是否有更好的形态,还需要逐步去探索。可以预见,在未来,人形机器人能克服微重力和氧气的限制,在月球上自由行走。
“我们设计机器人,首先是为了干活的。有了干活能力,它就可以逐步胜任各种应用场景,也就更有实用性的潜力。”他说。
不同于擅于奔跑、跳舞、打拳等强调自身性能的机器人,银河通用开发的GALBOT G1通用人形机器人更专注于机器人的干活能力,抓取、放置、导航是GALBOT G1最擅长的三项技能。它们身高1.73米、体重85公斤、臂展190厘米,躯干提升能力达65厘米,操作范围可从0至240厘米,采用轮式 双臂的设计,站立后能摸高2.4米,可以像人一样摸到货架的最高层甚至比人摸得还要高,往下可以“蹲姿”360度从地面上抓取物体,这对当前的双足机器人来说可能是很难做到的事情。
“机器人的一小步,人类的一大步”
在人形机器人技术和产业的发展上,北京和上海无疑是综合力量最强的两大阵地。
4月19日,人形机器人半程马拉松比赛在北京亦庄成功举办,这是全球首次机器人现场长时竞技活动,共有20支机器人队伍参赛,6支队伍成功完赛,证明了人形机器人初步具备“与人同行”的可能性与可靠性,比赛被评价为“机器人的一小步,人类的一大步”。
今年8月15日至17日,世界人形机器人运动会将在国家体育场和国家速滑馆举办。这是全球首个为人形机器人组织的综合性竞技赛事。
这是北京大力发展机器人产业的创新举措。
近些年,北京市充分发挥国际科技创新中心优势,在支持机器人科技产业创新、场景应用拓展、资源要素保障等方面加大政策支持,建设了国际一流的产业创新平台,聚集了一批国内顶尖的机器人创新型企业和研究机构,设立了百亿级的机器人产业基金和机器人租赁公司,有效推动了机器人全产业链快速发展,已成为全国领先的机器人技术创新和产业聚集地。
而在上海,全国三分之一的人工智能人才和一批国际标准化专家在此集聚,模速空间、机器人谷等世界级人工智能产业集群已初具规模。全国首个异构人形机器人训练场已在上海张江启用,100多台异构全尺寸人形机器人和类人形机器人进驻训练场,预计2025年将沉淀1000多万条交互数据,为通用具身模型提供支撑。上海通过建设集技术研发、成果孵化、人才培育、平台支撑于一体的共性服务平台,打造虚实融合具身智能训练场,加速应用落地、推动人形机器人与大模型融合。
北京市经济和信息化局党组书记、局长姜广智指出,全球首次人形机器人运动会可以进一步检验人形机器人的“智能”和“体能”的综合能力和融合水平。机器人在参与各类赛项过程中,需要在动态环境中完成感知、决策、执行的长程复杂任务,对机器人的智能化、自主化、通用性和泛化能力要求更高,更能体现机器人执行任务的能力。
“触觉、声音等模态数据尚待发掘”
在具身智能的研发中,什么最为关键?
北京智源人工智能研究院院长王仲远认为,模态数据是最值得关注的技术领域之一,也是目前的技术难点。
他说,当前具身智能领域,主要运用的是视觉和文本模态,而触觉、力反馈、温度感知以及空间和时间感知等模态,在具身智能的应用中尚未充分发挥价值。
北京星动纪元科技有限公司创始人陈建宇也同意这样的说法,“视觉模态大体占据80%以上的重要地位,其次是对灵巧操作有重要辅助作用的触觉模态,人形机器人需要有人的感受,这方面的技术正在丰富。但是目前,具身智能对声音模态的应用不足。”
他解释,在日常生活中,声音模态是非常重要的,能为操作提供很多有效信息,例如可以通过倒水时的流水声来判断水是否已满。但现在具身模型大多将声音通过语音识别转为文本输入,而非直接利用声音作为输入,这导致AI多呈现一问一答形式,缺乏实时反馈与决策能力。
北京银河通用机器人有限公司创始人王鹤将多模态数据分为真实数据和仿真合成数据,真实数据包含网络视频、人类工作视频等无动作标签的互联网数据,以及通过真机遥操装置采集的机器人数据。他认为,单纯依靠视频数据学习运动技能存在局限性,“仅看他人游泳是难以真正学会游泳的”。
王鹤主张以大量合成数据进行预训练,再用真机数据完成后训练,“在人形机器人保有量未达百万台级别时,合成数据是现阶段极具价值的数据资产,可以用它解决99%的问题。这是现阶段最可行的一种方法。”
“需打造人形机器人职业技能学校”
除了模态数据的技术难点,在具身智能的发展中,核心挑战之一便是提升其在工业场景中的鲁棒性——即机器人在复杂多变环境下稳定执行任务的能力。这是从研发到实用、好用不可绕开的问题。
在不同的场景中,人形机器人的落地难度不同。在药店中,由于药品多以规整的盒装形态呈现,尽管SKU(库存量单位)丰富,但标准化的包装使得商品陈列与抓取相对简单。相比之下,商超便利店场景的技术适配难度较高:袋装商品堆叠紧密,抓取时极易出现连带、滑落等问题;类似方便面桶等大尺寸商品,其宽度易超出夹板的行程;悬挂于货架挂钩上的袋装商品,抓取过程更需精准控制角度与力度。
今年,银河通用计划在北京、上海、深圳率先投入人形机器人,服务于24小时药店等零售新业态。
武文韬说:“在无人值守零售商店,前期使用阶段不可避免地需要人机协助,但是随着机器人技术的不断迭代,肯定会从每个店面需要一两个人负责,发展到一个人负责附近的两个店面,再发展到一个人管理5—10个店面,甚至更多。企业的运营成本也相应逐步降低。”
2025年元旦,乐聚机器人公司完成了100台人形机器人的产业化交付,包括科研、展厅、车厂以及工厂。乐聚提出的目标是,机器人进入工厂可以连续工作1500小时,即每天工作超过12小时,可以工作100天左右。
冷晓琨说:“机器人进入实际应用场景,要至少达到这个目标才敢说真正地能够应用起来。”
从技术层面看,场景状态数据、机器人自身状态数据,以及算法模型构成了决定机器人任务执行成功率的三大关键要素。对于更复杂、更精细化的任务需求,则需要构建专业化的模拟训练场景。
他表示:“这就好比人进入职业技能学校接受系统培训,我们也需要打造人形机器人职业技能学校,将工业生产与日常生活场景抽象出来,在模拟环境中反复训练机器人技能。通过持续采集场景数据和机器人状态数据,挑选出适配的算法模型。只有当机器人在模拟训练中达到预设标准,我们才能放心地将其应用到真实生活场景。”
何时迎来人形机器人“ChatGPT时刻”
毋庸置疑,当前机器人产业的创新和发展正在快速推进中。那么,离全民可用人形机器人还有多远?
王仲远认为,文字层面的通用人工智能(AGI)时代已然来临,但世界还包含了图像、声音、视频、时间、空间等多模态信息。在人工智能领域,尤其在具身智能与环境的交互感知方面,目前仍处于婴儿期阶段,未来还有很长的发展道路要走。具身智能可能会率先在受限场景下具备可用性,逐步积累一定的智能水平与泛化能力后,或许在5年甚至更久之后才能迎来重大突破。
陈建宇指出,若以语言模型的“ChatGPT时刻”作为参照标准,即人形机器人能够面向大众开放使用,在任意场景下,用户告知任务后,机器人都能做出准确的推理与回应,那么,这一标准相当严苛,预计实现这一目标至少需要3年时间。
冷晓琨强调,人形机器人领域与ChatGPT存在本质差异,其发展涉及硬件与软件的深度耦合。依据硬件产业的发展规律,从实验室产品迈向产业化产品,至少需要3到5年的时间,此后还需将具身智能软件与之充分融合,才有望迎来行业的爆发式增长。
具身智能的终极目标,或许不是创造完美的“人造人”,而是构建一个人类与机器共生的新型生态体系。在这场静默的革命中,每个技术突破都在改写“智能”的定义,每个场景落地都在重塑“服务”的边界。未来,随着技术迭代与场景拓展,这些钢铁之躯或将重新定义人类社会的生产生活范式。
我们应该期待这一天的早日到来!
《人形机器人的“ChatGPT时刻”还有多远?》
栏目主编:樊江洪 题图来源:新华社
来源:作者:解放日报 余晨扬 王成浩