机器人如何更像人？从展会看具身智能的交互表现

hwyzw · 发表于 2025-4-7 00:11:16

机器人如何更像人？

作者／ IT时报记者沈毅斌

编辑／孙妍

两个月前于上海举办的世界人工智能大会上，多家企业的人形机器人“十八金刚”一同出道。它们不仅成为大会的镇馆之宝，还向观众展示出了未来科技的蓝图。作为改革开放的“排头兵”，深圳也投身到由 AI 掀起的科技浪潮之中。

9 月 8 日到 10 日期间，第五届深圳国际人工智能展（GAIE）在深圳会展中心开始了。该展览以“智创未来·价值链接”作为主题。展会现场，迎宾巡更机器人于入口处迎接从远方而来的观众，同时发放论坛议程。在休息区，能够品尝到咖啡机器人和炒面机器人的“手艺”。智能访客机器人正在回答着观展过程中提出的问题……具身智能凭借其强大的交互能力，成为了全场的焦点。

目前，具身智能在语言对话交互方面有了一定的进步。然而，在行动和情感等方面的交互还比较简单，恐怖谷效应仍然存在。数字华夏解决方案总经理戴鹏表示，人形机器人在交互领域达到“手眼心脑”协同，从而实现人机共融，这才是未来的发展方向。

行动交互输入感知信息，输出运动执行

各位参会的先生们和女士们，还有现场的机器人朋友们，大家好。在智能机器人创新发展论坛上，北京大学人工智能研究院以及具身智能与机器人研究中心的主任刘宏，以一句开玩笑式的打招呼方式吸引了观众的注意。刘宏这样打招呼的原因是，他已经把机器人当作是一个有思想的独立个体，他认为未来将会是人机共存的时代。

如今，大模型的出现给具身智能赋予了一颗“智慧大脑”，并且推动具身智能迈向了更深的应用场景。然而，若要成为独立个体，就需要具身智能把思考转化为行动，具备一套极为强大的执行交互能力。在刘宏看来，只有将输入的感知信息转化为输出的运动执行，才能够被定义为具身智能。需要具备安全性，同时要具备灵活性，还要具备流畅度，并且具备自主性，也就是行为越来越像人，这样才能实现人机自然交互。

行为认知学习以及未来运动预测对于行动交互而言是关键所在。多位业内人士在谈及行为认知时都表明需以人脑作为参考。忆海原识的总裁助理陈诗薇在论坛上指出，要为具身智能构建一个类脑智能，也就是运用丰富的基础模型，并结合生物神经系统工作原理的技术体系。类脑计算体系结构包含扩展机制、变量体系、抽象模块、基础模型等多种核心。相比深度学习体系，它结构更为复杂。同时，它具有较强的可塑性机制，能够快速刻画出行为的因果联系，即便数据量小也能进行训练。

中国科学院院士鄂维南在论坛上表示，下一代大模型要实现进一步智能化，就需要借鉴人脑的“记忆分层”这一特点，并且要将技术框架进行分层处理。

在未来运动预测领域，目前依靠 RNN 方法（循环神经网络），能够学习时序数据里的动态依赖性。简单来讲，就是借助反馈连接，把之前识别到的信息运用到当前的决策当中。然而，人体运动属于一种相互组合的复合运动，像走路动作是由迈步和摆手这两个原子动作组合而成的，而训练数据的不足会给人体运动预测任务带来挑战，并且在学习过程中误差也会不断积累。

对此，刘宏提出了一个复合动作生成模块。这个模块是以 VAE 模型为基础的，VAE 模型能学习潜在变量并生成新的数据样本。该模块会把复合动作进行拆分和提炼，变成若干个原子动作，然后再将这些原子动作组合成动作序列，用于进行行为交互训练。这也就表明，通过使用原子动作进行训练，就能够生成合成复合运动，从而解决了复合运动训练数据收集既费时又费力的痛点。

有解决方案已被提出。浙江大学智能系统与控制研究所机器人实验室主任熊蓉认为，在技术层面需进一步打磨，比如提升整个运动的可靠性，以及实现长时间长距离的拟人化各种动态运动；在操作层面，要提升适应各种场景的智能性；从产品角度看，需要定义适合市场需求的产品，打造供应链以降低成本，还要面向应用进行各种开发。

情感交互手眼心脑协同，避免恐怖谷效应

在一个展会上，有几位人形机器人，它们长着长发且有人脸，舞动着双手，跳起了网红舞蹈“科目三”。这些机器人的动作十分标准。然而，面对越来越像人的人形机器人，人们难免会产生恐怖谷效应。仅仅做到行动交互是不够的，不能让人类从心底接受人形机器人，所以需要提升情感交互能力。

戴鹏在论坛上称，我们需要一款具备特定特质的人形交互机器人。传统人形协作机器人具备自动控制以及编程的能力，能够与人类在相同的工作空间中协同作业。而那种有温度的人形交互机器人，其作用在于实现和人类一样的“手眼心脑”协同。“眼”主要用于眼神交流以及表情互动；“心”能够去理解人的喜怒哀乐，还能感知人类那些细微且丰富的情感以及认知状态；“脑”具备丰富的通用知识，能够进行有深度的情感沟通，而其中最能直接感受到的就是表情的展现。

以数字华夏所打造的交互型人形机器人“夏澜”为例，它的脸部拥有多达 26 个执行器，19 个电机用于模拟面部肌肉并进行控制。表情交互技术是以多模态大模型为基础的，借助视频数据，机器人的自我模型能够通过观察和学习视频中人类的交流方式以及情感表达等，从而实现泛化交互。在进行现实交流的时候，表情预测能够让机器人预测面部活动，眼动追踪也可以让机器人预测面部活动，这样机器人就能快速做出表情回应。

多家机器人研究院也在加强情感互动能力。今年 5 月，在中国科学技术大学计算机科学与技术学院的机器人实验室内，“90 后”博士曹荣昀研发了一款人形情感交互机器人。这款机器人的亮点是面部表情和触感高度仿真。通过部署 30 个电机驱动器，能让机器人面部肌肉协同工作，从而呈现出真实自然的表情。

戴鹏在论坛上公布了人形机器人交互技术框架，目的是提升人形机器人的情感交互能力。该框架可分为 laaS（基础设施即服务）、核心能力、RaaS（机器人即服务）三层。核心能力包含感知理解引擎、综合决策引擎、任务编排引擎，同时还有情感分析和表情控制这两种模型。

机器人如何更像人？从展会看具身智能的交互表现

更多帖子推荐