hwyzw 发表于 2025-2-8 18:37:58

英伟达成立GEAR实验室,推动具身智能与机器人技术深度融合

    机器人的“大脑”和“小脑”执行自己的职责。

    文字|黄南

    编辑| Peng

    来源|硬(id :)

    封面源| IC照片

    不久前,建立了一般体现的智能代理研究实验室(Gear)的消息,将机器人再次推向了最前沿。

    在过去的一年中,在AI大型模型的浪潮中,大型机器人的路径为人类和机器的共存提供了一种新的交互式模式。有些人甚至认为,机器人大脑的进化速度主要取决于大型模型的开发速度。

    市场对机器人的热情反映在实际的资本环境中,这是一个融资项目,可能是数亿甚至数十亿元人民币,相关零件的规模突然增加了,下游概念股票也增加了……情报库存...在机器人着陆故事中已成为备受期待的关键字。

    但是,在实际实施中,机器人只能完成一些自定义任务,缺乏识别复杂方案的能力,并且其应用程序限制是有限的;另一方面,机器根据设定算法进行操作,并且很难产生更大的智力,思维能力和决策。能力无法提高。

    如何使体现的智能机器人通过与人的持续互动而继续学习,环境已成为关键主张。

    机器人拼图在公开场景中

    很长一段时间以来,AI和机器人领域都有经典的悖论。 悖论提出,与传统假设不同,计算机只需要少量计算能力即可实现高级智能,例如推理。但是,如果您想要直觉,感知和其他能力,则需要巨大的计算能力。

    简而言之,计算机可以轻松地在与人类对抗的游戏中获胜,但是让机器人为您从冰箱中取出可乐并不容易。

    此过程涉及几个必要的步骤。首先,机器人需要了解人类发布的指示并拆卸任务。第二步是做出决定,确定目标定位并计划路线;第三步是到达目的地后面对冰箱中的各种物品,机器人有必要识别“可乐”并控制机器人臂以完成采摘动作;最后将项目交给指定的位置。

    过去,可以预设上述操作,但是由于不成熟的技术,机器人只能通过案例服务提供案例。也就是说,它只学会服用“可乐”。一旦将项目替换为“精灵”,工程师就需要重置一组。过程。

    当机器人进入实际场景时,它们通常会面临两个主要的疼痛点:较弱的概括能力和高输送难度。

    在与Hard 的对话中,机器人首席执行官Qiu 将机器人应用程序场景分为封闭式和开放场景。

    其中,封闭的场景是指采用经典定制模式。机器人的任务执行边界是预设的。在用户发布说明后,他收集了现有的数据进行培训,耗尽了有限范围内的所有任务可能性,并尽可能涵盖更多的解决方案路径。

    例如,在工业场景中,工程师将提前为特定公园设置运输路线。机器人只需要在固定路径上完成交付任务,该路径的灵活性低。即使有多个路线,这些路径也会布置和计划,一旦机器离开相同的路径,它将与机器分开。地图上设置的任务无法操作。因此,面对新任务,机器人需要再次收集数据以训练,设定计划和测试,从而导致巨大的资源和人力损失。

    https://img2.baidu.com/it/u=698269462,3442702437&fm=253&fmt=JPEG&app=120&f=JPEG?w=889&h=500

    开放的方案是指不受强大封闭法规和范围限制的长尾问题,例如超市服务,基于家庭的老年护理等。当机器人与人类和大量的环境互动时,可能会出现紧急情况在数据集中,很少有样本甚至零样本,这需要机器人理解和处理多个任务的高度概括能力。

    例如,自动排序。当前,机器人可以完成物流分类和仓库分类,但是很长一段时间以来一直没有实现超市分类。主要原因是仓库物流中心的货物可以按外观和大小进行标准化和分类。同时,货物是高度密封的,并且具有更多的冗余。相比之下,有许多类型的超市,它们也装在1.5升白瓶中。它们可能是牛奶,酸奶或椰奶。另外,类别特征是不同的,例如鸡蛋和组织的抗腹部程度非常不同,这也是事实。分类机器人提出了极高的要求,从视觉控制到强制控制的一切都必须非常准确。

    在Qiu 的愿景中,机器人不仅应该是指令的执行者,而且还可以从一个示例中学习并将其应用于其他示例。 “如今,机器人可以在清洁,检查和其他任务方面做得很好,但是如果您想真正进入人们的日常生活,那么如果没有它的看法,决策和执行能力,就无法做到。”

    2023年,国内大型模型的爆炸性增长为AI+机器人提供了新的新机会。 Chiu 毕业于美国卡内基梅隆大学(CMU)的机器人学院。他参加了NASA的火星漫游者研发,L4级自动驾驶和其他项目。他在AI和机器人中拥有超过8年的跨场研究和实施经验。

    随着技术的改善和成本下降,任务类型机器人(例如扫地机器人和工业武器)的渗透率显着提高。但是,为了提高机器人的智能水平,需要更高级的算法和数据支持。

    自然语言数据是离线的,属于方法论学习;尽管机器人决策不能与许多高质量数据分开,但其中大多数来自在公开场景中遇到的紧急情况。结果,从单个封闭的场景任务延伸到一个开放场景已成为机器人从业者接一个进入一个的途径。

    去年4月,Qiu 和他的团队建立了机器人,专注于体现的智能超市服务机器人。通过控制人音命令,机器人可以在超市场景中实现多任务执行能力,包括自主检查和自动补货,产品分类等。四个月后,雅各比机器人完成了其蒂安赛的融资,投资者包括AI II, Daniu和Qiji 创始人Lu Qi。

    一方面,公开场景对机器人提出了极高的要求,包括开放词汇的感知能力,非机械学习方法的任务计划,高频任务执行的闭环能力等;另一方面,大型模型的语义理解,抽象计划和推理。该能力被证明可以处理许多复杂的任务,这为在长尾方案中应用机器人提供了可行的途径。

    用“大脑 +小脑”安装机器人

    诺贝尔经济学奖得主曾经在书《快速而慢》一书中提出,人类有两种思维方式。第一个是基于直观判断的“快速思考”,第二个是“缓慢思考”,它需要进行大量的推论和计算。

    过去,大型模型和AI技术之间的区别在于,它们采用了“缓慢思考”模型,使机器人能够通过与人类的互动不断学习,并获得更好地解决任务并解决更多任务的能力。但是由于这个原因,专注于AI和机器人曲目的投资者Guo Xu告诉Hard ,大多数登陆或完整的机器人产品和项目通常都希望“夺走所有这些”,例如大型模型的能力是非常强大。我只想直接制作一个端到端的巨型通用模型来解决所有问题。

    在这方面,Qiu 指出:“从实际的ROI输入输出比的角度来看,它可能不是成本效益,或者可能不适合当前阶段。”

    开放方案用户的需求很复杂,大型模型的培训和推断很昂贵。根据海外研究和大的计算,每个令牌的训练成本(1000个令牌约为750个单词)通常约为6n(n是参数的测量单位),并且推断成本约为2N。也就是说,推论成本相当于培训成本的三分之一。一旦模型在线使用,其推论成本可能远远超过培训成本。

    因此,大型模型的部署成本也很高。最终的结果是,其市场价格对普通的中小型企业不起作用,并且其市场规模和受欢迎程度有限。

    为了平衡这种令人尴尬的情况,类似人类的大脑机器人是探索的重要方向。也就是说,让机器人模仿人脑的劳动分裂,并通过“脑 +小脑”的两个结构相互补充。大脑负责高级感知和决策功能,例如视觉,听力和意识,而小脑则负责控制运动,平衡和行为姿势的协作数据。 。

    以Qiu 及其团队为例的“通用机器人大脑”为例,通用机器人的大脑由“大脑” J-Mind和“ ” J-box组成。 J-Mind负责理解任务,发布指令并将其交给J-Box。执行。

    首先,在感知层中,可以通过结合说明和物理环境来理解LLM+VLM(大型视觉模型)的技术途径,并提高机器人对开放场景的认知能力,也就是说,不仅可以“看”场景。各种项目还可以“了解”用户的需求。例如,机器人最初只知道可口可乐,但是当看到诸如和 Juice之类的新物品时,它可以“推断”它们也是罐装饮料,并阅读包装信息以识别新物品。

    雅各比机器人正在工作

    Qiu 告诉Hard ,机器人选择超市作为其自己产品的第一个应用程序方案的原因正是由于超市的人员聚集效应,该效应具有大量重复的项目信息和互动,可以提供数据支持用于机器人的自学。 。也就是说,机器人从真实场景中收集数据并实时学习,而不是在现有数据库中找到答案。

    在决策级别上,机器人可以通过J-Mind将用户需求转换为特定的说明和取代,形成一个动态的任务分配输出和决策的封闭环,并将执行任务发布到J-box。然后,J-Box驱动机器人完成控制,抓住并放下。

    机器人是“爬行,放下”

    https://img1.baidu.com/it/u=955057214,411845138&fm=253&fmt=JPEG&app=120&f=JPEG?w=916&h=500

    例如,当超市货架缺货时,店员只需要以口头或文本输入的形式提交“货架上的可乐,需要补充货货,需要补充”。雅各比机器人可以自动移动到需要补充的架子上。 ,确定架子的显示状态。当J-Mind在多个类别中识别可口可乐时,它可以将补给指令拆分为子步骤,J-box抓住可乐并将可乐放在架子上的开放位置。

    这种“脑 +小脑”路线在通用机器人大脑的基本框架上集成了许多经典的主流机器人算法,并且可以在没有部署工程师的情况下使用。它还支持手动调度和机器人自动化援助,具有更高的灵活性,机器人大脑确定是否需要通过调用大型模型或使用算法来解决任务,从而降低服务成本。

    商业化困境:长期迭代周期和高成本

    公共数据显示,在2017年至2021年之间,全球智能服务机器人从最初尚未达到100亿至200亿美元的市场增长,预计到2026年将超过600亿美元。

    其中,中国聪明的专业服务机器人市场也从2021年的100亿元人民币增长,预计到2026年将达到1000亿元人民币,增长率相对较快。

    可以看出,与只能在购物中心中移动或展示广告的传统机器人相比,大型模型的出现使人们可以看到体现智能的希望,而雅各比()代表的超市机器人已经取得了一定的进步。

    但是,它的疼痛点仍然存在。在技​​术层面上,大型模型增强了机器人的理解能力,但是机器人本身是一个复杂的跨学科系统,涉及仿生设计,AI应用,动态建模,能量管理等,并且有必要实现理解,决策的目标 - 控制和执行任务的制造也需要匹配各种算法和软件。 AI技术的升级和迭代不是线性的,循环较长且投资高,并且从长远来看,它将无法突破关键技术。

    就硬件而言,机器人的收集结构很复杂,核心组件决定了其重要的性能指标,例如准确性,稳定性和负载能力。其中,技术上最困难的是还原,伺服系统和控制器,占费用的70%。添加其他组件(例如传感器)将增加机器人制造和维护后的成本。

    Qiu 告诉Hard ,在超市场景中的客户非常关注ROI。为此,机器人找到了一个核心组件的供应渠道。 “此方法具有高成本控制空间,并且根据期望进行计算。”

    此外,在生产过程的过程中,开放方案的集成,抛光和迭代也需要时间来生成和验证价值。

    机器人制造商的市场领导者告诉Hark KR,“下游买家必须需要扩展和教育,并且在推出时很难被接受和认可。解决方案是继续迭代产品,第二次。是要与客户保持联系。

    例如,除了超市场景外,雅各比机器人还探索餐饮服务,办公室,家庭使用和其他环境。作为餐厅服务员,机器人可以完成诸如订购和菜肴之类的任务;作为公司的前台,它可以指导访客和完成诸如材料分配和浇水之类的完整任务;作为家庭助理,它可以协助组织衣服,擦洗家具等。

    机器人餐饮服务工作流程

    “我们的最终目标是从超市场景开始,将机器人学习到更多方案,进入每日家庭生活,并真正实现多个任务的自动化循环。” Qiu 说。

    不可否认的是,整个市场上的机器人仍处于“玩具”阶段,并且远非达到大型工业化阶段。但是我们可以期望的是,通过机器人和大型模型的融合方法,“大脑 +小脑”的模拟演变,大型模型和经典算法的自动化协调以及规则和模型的相互转换,更多复杂而连续的自我生长机器人剂可能不会遥不可及。

    36KR的铁杆技术报告官方帐户
页: [1]
查看完整版本: 英伟达成立GEAR实验室,推动具身智能与机器人技术深度融合