当AI大模型卷向服务机器人，会有哪些新故事？｜硬氪分析

理想主义者 03-14 189

默认

摘要： 据记者刘闻超消息奥斯卡在对阵三镇时小腿伤势加重缺席本轮战浙江该记者写道人员方面队长奥斯卡在首轮同武汉三镇一战中小腿伤势加重将缺席本轮比赛北京时间月日中超第轮浙江队将坐镇主场黄龙体育...

据记者刘闻超消息，奥斯卡在对阵三镇时小腿伤势加重，缺席本轮战浙江。该记者写道，人员方面，队长奥斯卡在首轮同武汉三镇一战中，小腿伤势加重，将缺席本轮比赛。北京时间3月9日19:35，中超第2轮，浙江队将坐镇主场黄龙体育中心迎战上海海港队。

作者｜黄楠

编辑｜彭孝秋

不久前，英伟达成立通用具身智能体研究实验室（GEAR）的消息曝光，将机器人再度推上了风口。

过去一年，AI 大模型浪潮中，以大模型+机器人的路径，为人与机器共存提供新的交互模式。甚至有观点认为，机器人大脑的进化速度，主要取决于大模型的发展速度。

市场对机器人的火热反映到实际的资本环境上，是动辄数亿、乃至数十亿的融资项目、相关零部件规模陡然增长、以及下游概念股也乘风而起......具身智能，成为机器人落地故事里备受瞩目的关键词。

但进入实际的落地中，机器人只能完成一些定制化任务，缺乏对复杂场景认知能力，应用局限；而另一边，机器按照已设定算法运行，也难以产生更大智能，思考能力和决策能力无法得到提升。

如何让具身智能机器人在与人、环境的不断交互中继续学习，成为了一个关键命题。

开放场景下的机器人难题

长久以来，AI和机器人领域都存在着一个经典悖论——莫拉维克悖论提出，和传统假设不同，计算机要实现例如推理等人类所具备的高阶智慧、仅需少量的计算能力，而若要直觉、感知等能力，却需要巨大的运算能力。

简单来说，电脑可以在和人类围棋对弈中轻松取胜，但如果让机器人为你取出冰箱里的可乐，却并不简单。

这一过程包括了几个必要步骤。首先，机器人需要听懂人发出的指令，将任务进行拆解；第二步是做出决策，确定目标定位并规划行进路线；第三步到达目的地后，面对冰箱里各式物品，机器人既要能识别出“可乐”、还要能控制机械臂完成拣取动作；最后再将物品交到指定地点。

过去，上述行动可以预先设定，但由于技术不成熟，机器人只能提供case by case服务；即它只学会了取“可乐”，一旦物品换成“雪碧”，则需要工程师重新设定一套流程。

当机器人迈进真实场景里，往往面临着泛化能力弱、交付难度高的两大痛点。

雅可比机器人CEO邱迪聪在与硬氪交谈中，将机器人应用场景划分为封闭式和开放场景。

其中，封闭式场景指采用经典的定制化模式。预设机器人的任务执行边界，用户下发指令后，先收集现有数据进行训练，在限定范围内穷举出所有任务可能性，尽可能覆盖更多的解决路径。

例如工业场景的运输机器人，工程师会针对特定园区提前设置运输线路，机器人只需在固定路径上完成配送任务，灵活性低；即使存在多条路线，这些路径亦经过编排和规划，机器一旦脱离该地图所设定的任务，便无法运转。因此面对新任务，机器人需要再次收集数据训练、设定方案和测试，从而导致了极大的资源和人力损耗。

开放场景则是指不受强封闭式规范和范围限制的长尾问题，如商超服务、居家养老等。当机器人与人、环境进行大量的交互，数据集或存在少样本、甚至零样本的突发情况，这对机器人理解、处理多种任务的泛化能力要求极高。

比如自动分拣，目前机器人可完成物流分拣、仓库分拣，但商超分拣却迟迟未能实现。其主要原因就在于，仓库物流中心的货物可以标准化，按外形、大小分类，同时货品密封性强，有更多冗余。相比之下，商超里品类繁多，同样是1.5L白瓶包装，它可能是牛奶、酸奶或是椰汁；再加上品类特性不同，比如鸡蛋和纸巾的抗摔程度大相径庭，这也对分拣机器人提出了极高的要求，从视觉到力控，都必须做的很精准。

在邱迪聪的设想中，机器人不应只是指令的执行者，还要具备举一反三的学习能力。“今天机器人在清扫、巡检等任务中可以做得很好，但想要真正走进人们日常生活，离不开它的感知、决策、执行能力。”

而2023年国内大模型的爆发式增长，令邱迪聪看到了AI+机器人的新机会。邱迪聪毕业于美国卡内基梅隆（CMU）大学机器人学院，曾参与NASA火星车研发、L4级自动驾驶等项目，有超过8年AI与机器人跨领域研究和落地经验。

随着技术改进和成本下降，扫地机器人、工业手臂等任务型机器人*率显著提高。但要提高机器人智能水平，需要更先进的算法和数据支撑。

自然语言的数据是离线的，属于方法论上的学习；而机器人决策离不开很多高质量数据，其中多数来自于开放场景中遇到的突发性状况。由此，从单一的封闭式场景任务向开放场景延展，成为机器人从业者鱼贯而入的一条路径。

去年4月，邱迪聪和团队成立了雅可比机器人，聚焦具身智能商超服务机器人，通过人类语音指令的控制，即可让机器人在商超场景下实现多任务执行能力，包括自主巡检、自动补货、货品分拣等。4个月后，雅可比机器人完成天种子轮融资，投资者包括AI大牛、奇绩创坛创始人陆奇。

一边是开放场景对机器人提出的极高要求，包括开放词汇的感知能力、非机器学习方法的任务规划、高频任务执行的闭环能力等；另一边，大模型的语义理解、抽象规划和推理等能力被印证，可以处理许多复杂任务，这为机器人在长尾场景中应用提供了一个可行性的通路。

给机器人装上「大脑+小脑」

诺贝尔经济学奖得主 Daniel Kahneman 曾在《Thinking Fast And Slow》一书中提出，人类的两种思考模式，第一种是以直觉判断为主的“快思考”，第二种是“慢思考”，需要进行大量的推理和计算。

大模型与过去 AI 技术不同点就在于，它采用了“慢思考”模式，令机器人可以在与人类的交互中不断学习，获得更好解决任务、解决更多任务的能力。但也正因如此，关注AI、机器人赛道的投资人郭旭告诉硬氪，绝大部分落地或完整的机器人产品和项目，普遍希望“一招通吃”，例如大模型的能力很强，就想直接做一个端到端的巨型通用模型来解决所有问题。

对此邱迪聪指出，“从实际ROI投入产出比的角度来说，可能不一定划算、或者说不一定适合当前这个阶段。”

开放场景用户的需求复杂，大模型的训练和推理费用高昂。据海外《The Economics of Large Language Models》研究测算，每个token（1000 token约为750个单词）的训练成本通常约为6N（N为参数的计量单位），推理成本约2N。即推理成本相当于训练成本的三分之一。一旦模型上线使用，其推理成本可能远超训练成本。

因此，大模型应用于机器人的部署成本也很高。最终带来的结果是，其市场价格并非普通中小型企业能消费得起的，市场规模和普及程度有限。

要平衡这种尴尬局面，类人脑机器人不失为一个重要的探索方向。即让机器人模仿人脑的运转分工，通过“大脑+小脑”两个结构互补，大脑负责视觉、听觉和意识等高层次的感知和决策功能，小脑则负责协同数据来控制运动、平衡和行为姿态。

以邱迪聪和团队提出的“通用机器人大脑”为例，通用机器人大脑由“大脑”J-Mind和“小脑”J-Box构成，J-Mind负责理解任务、下发指令，并交由J-Box来执行。

首先在感知层，结合了LLM+VLM（大型视觉 - 语言模型）的技术路线可以就指令、结合物理环境进行理解，提高机器人对开放场景的认知能力，即不仅能“看到”场景中的各种物品，还能“看懂”用户的需求。比如机器人原先只认识可乐，但在看到雪碧、橙汁等新物品时，可以通过其外形与可乐相似、“推断”出它们也是罐装饮料，并读取包装信息，从而认知到新物品。

雅可比机器人工作中

邱迪聪告诉硬氪，雅可比机器人之所以选择商超作为自身产品的首个应用场景，正是因为商超的人员聚集效应，有大量反复的物品信息和交互产生，可以为机器人自我学习提供数据支撑。也即是说，机器人是从真实场景中收集数据实时学习，而非在已有的数据库找答案。

在决策层，机器人通过J-Mind可以将用户需求转化具体的指令和子步骤，形成任务分配输出与决策动态闭环，下发执行任务给到J-Box。随后，再由J-Box来驱动机器人完成操控、抓取、放下等动作。

机器人正在进行「抓取、放下」

例如，当商超货架缺货时，店员只需以口头或文字输入的形式，提出“货架上可乐缺货、需补货”的指令，雅可比机器人可自动移动到所需补货的货架前，识别货架陈列状态。当J-Mind在多类物品识别到可乐后，可将补货指令拆解为子步骤，由J-Box来抓取可乐、并把可乐放置到货架的空缺位置中。

这种“大脑+小脑”路线在通用机器人大脑的基础框架上，集成了很多经典的主流机器人算法，无需部署工程师，开箱即可使用；同时还支持人工调度和机器人自动化协助，灵活性更高，由机器人大脑来判断任务是否需要调用大模型、亦或是用算法就能解决的，进而降低服务成本。

商业化困局：迭代周期长、高成本

公开数据显示，2017年至2021年五年间，全球智能服务机器人从原本未达百亿的市场增长至200亿美元，预计到2026年将超过600亿美元。

其中，中国智能专业服务机器人市场也从2021年的百亿元、预计到2026年可迈向千亿规模，增速较快。

可以看到，相比于商场里只能移动或展示广告的传统机器人，大模型的出现让人们看到了具身智能的希望，以雅可比为代表的商超机器人已经实现了一个台阶的提升。

不过，其痛点也依旧存在。在技术层面，大模型增强了机器人的理解能力，但机器人本身是一个复杂的跨学科系统，涉及仿生学设计、AI应用、动力学建模、能量管理等等，要实现从理解、决策到控制运动、执行任务，还需要匹配各种算法和软件。AI技术升级迭代不是线性发展的，周期长、投入高，存在长期无法突破关键技术的风险。

硬件方面，机器人的征集结构复杂，核心零部件决定了其精度、稳定性、负荷能力等重要性能指标，其中技术难度最高分别是减速器、伺服系统和控制器，占成本的70%。加上传感器等其他零部件，这些都会增加机器人的制造和后期维护的成本。

邱迪聪就告诉硬氪，商超场景客户对ROI十分关注。为此，雅可比机器人已找到核心零部件的供应渠道，“这种方式的成本控制空间较高，核算下来符合预期。”

此外，机器人在产品化过程中，基于开放场景的融合打磨和迭代，也需要时间来产生和验证价值。

某机器人厂商的市场负责人向硬氪表示，“下游买家一定是需要拓展和教育的，很难实现一上市就得以被接受和认可。解决方法一是产品持续迭代，二是要与客户保持紧密沟通，这是一个共同打磨产品、共同打磨场景的过程，通过这种共创的形式，发掘更多产品价值。”

例如除商超场景外，雅可比机器人也在探索餐饮服务、办公室、家用等环境。机器人作为餐厅服务员可以完成点菜、上菜等任务；作为公司前台可以引导访客，并完成材料分发、倒水等任务；作为家庭助手，协助整理衣物、擦洗家具等。

‍ 机器人餐饮服务工作流程

“我们最终的目标是，从商超场景出发，将机器人所学迁移至更多场景中，进入到日常的家庭生活，真正实现多个任务的自动化闭环。”邱迪聪说到。

无法否认，目前市场上的机器人整体还处于一种“玩具”的阶段，远没有达到大规模产业化的地步。但可以期待的是，通过机器人和大模型的融合方法，有“大脑+小脑”的仿真演化，有大模型与经典算法的自动化协同，有规则和模型的相互转化，一个更复杂的、可以不断自我成长的机器人智能体或许已经不远了。

标签：机器人场景任务