对话穹彻智能卢策吾:有了大脑的机器人应该活跃在工厂之外

来源 | 《财经》杂志 文 |  《财经》记者 刘以秦 编辑 | 谢丽容  

2025年11月12日 22:19  

本文5831字,约8分钟

卢策吾以上海交大教授身份创业,擅长通用机器人大脑技术,但坚持“软硬件一体”,他最新的观点是,具身智能应该更多往服务业发展

(10月24日,在外滩年会上,穹彻智能创始人卢策吾接受了《财经》专访)

具身智能是今年最热门的创业领域,但在两年前,这一领域还少有人提及。

在中文世界相对较早的定义是在2023年7月,中国计算机学会的官方账号发布文章《具身智能 | CCF专家谈术语》,文中为具身智能下了定义:“具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。”

那篇文章的作者是上海交通大学人工智能学院副院长卢策吾、北京大学前沿计算研究中心助理教授王鹤。几个月后,卢策吾创办穹彻智能,王鹤创办银河通用,如今这两家创业公司均是具身智能领域里的明星公司。

2016年,卢策吾与王世全、钟书耘、叶熙阳四位斯坦福校友创办了机器人公司非夕科技。2023年11月,非夕科技孵化穹彻智能,专注于具身智能方向。

今年10月,穹彻完成新一轮融资,阿里巴巴领投,公司成立至今,已完成6轮融资。

在具身智能商业化过程中,数据与模型的效率是核心问题,穹彻的主要方向是具身智能大脑,最新研发成果包括无本体数据采集方案、通用端到端模型方案以及人机协作的规模化部署系统。

目前具身智能创业公司各有侧重,有的专注机器人本体,有的更重视大脑和模型。通常大脑公司会面临交付问题,因为现在市面上的机器人标准不统一。穹彻的特别之处是由非夕科技战略孵化而来,非夕有相对完整的硬件生态,穹彻也继承了这部分能力,在现阶段能为客户提供软硬件一体的交付方案。

2016年,卢策吾从斯坦福大学回国创业做机器人后,他不断向外界介绍什么是具身智能,但早期外界很难理解,2018年他曾经组织了一场线下论坛,到场只有7个人。直到2024年,具身智能行业一夜爆火,他经历了相对完整的中国具身智能发展周期。

10月24日,在外滩年会上,穹彻智能创始人卢策吾接受了《财经》专访,作为“教授创业”的代表,他回应了外界对于这类创业者的“标签化”问题。他提到具身智能应该更多往服务业发展,而非停留在工业场景。他认为,具身智能让AI从数字世界进入真实物理世界,是AI的终极方向。

通过硬件来验证大脑

《财经》:穹彻10月刚完成新一轮融资,是由阿里投资,为什么和阿里合作?

卢策吾:第一,具身智能需要高水平人工智能的能力,算力很重要,阿里的有非常好的算力。

第二,阿里云有很多社区联动,机器人在阿里的产业上可以有很多合作的场景,我们希望机器人能够进入人类的生活,而阿里的很多触角就是在人类的生活中,是一个非常好的合作伙伴。

《财经》:算力的重要性体现在哪里?

卢策吾:智能需要的模型会越来越大,机器人需要去理解视频,理解语言,理解行为,算力一定是指数级的增加。

《财经》:穹彻是非夕智能孵化的创业公司,非夕已经有机器人的业务了,为什么还要单独成立一家创业公司来做?

卢策吾:具身智能是需要服务于所有的机器人的,要服务于更大的产业。

《财经》:所以穹彻做的是机器人的大脑,为什么对外的说法是“软硬件一体”?

卢策吾:这里可能有一个误区。我们是兼具软硬件一体的能力,我们已经推出了完整的机器人本体。并不是说我们脱胎于非夕,我们就不做硬件了,我们可以用到非夕的机械臂,也会用其他厂商的零部件,最终要给客户交付的是一个整机形态。

《财经》:大脑已经很难做了,为什么还要把本体一起做了?

卢策吾:需要两条腿走路,我们虽然是一家大脑公司,但要让客户用上我们的大脑,需要先通过自己的机器人去推广和证明。我们自己先把这件事做完,别人觉得我们的大脑挺好用,慢慢就会用到他们自己的硬件上。

《财经》:大脑和本体单独做一个成本都很高,两个一起做,成本会不会有压力?

卢策吾:还好。大脑确实成本比较高。我们本身有做硬件的底子,也不会去单独研发关键的零部件,所以整体还好。

《财经》:大模型已经发展几年了,大脑的成本有下降的趋势出现吗?

卢策吾:目前没有看到成本下降趋势,因为具身智能是一个人才密集型、数据密集型和算力密集型的行业。

《财经》:现在大脑的智能化程度有多高?

卢策吾:很难用量化的方式解释,还在逐步进步的过程中。机器人的大脑不像大模型那样会有一个评判标准,比如各类榜单排名。我们能看到的一个角度是“技能光谱”,就是会逐步解锁各种技能,比如抓取物品、折叠柔性物体、刮削物体表面等。

什么是好的商业化场景?

《财经》:穹彻的机器人目前落地应用的场景有哪些?

卢策吾:零售、食材处理,还有酒店行业。

来找我们的客户很多,我们要去筛选,这个行业要足够大,且需要新技术去变革,如果他们要的还是传统的技术,那就没必要去做了。我们会积累这样的应用场景,在累积的过程中不断提升AI能力,能力提升后,你能覆盖的业务就更大了。

《财经》:所以这三个行业是你认为很好的应用场景?

卢策吾:比如食材加工处理,属于千亿级别的场景,而且这个场景是可以磨炼AI的。这里面用到的很多技能是可以迁移到其他场景里的。比如菜和肉,形状和质地都是不固定的,不同食材需要的工艺也是不一样的,这个场景需要更多智能。我们在食材加工处理领域已经有批量的落地的营收了。

当然行业里其他具身智能公司可能会选择不同的场景切入,这是我们认为从经济价值和技术迭代价值角度来看,比较不错的场景。

《财经》:你之前提到过,机器人已经从表演阶段进入干活阶段,怎么定义“干活阶段”?

卢策吾:通过劳动创造价值。当然表演,跳舞这些也能够替代一些表演人员的工作,但我们会更关心机器人能够给人类的物质层面带来哪些帮助。

《财经》:很多机器人公司会从工厂场景切入,这是“干活阶段”吗?

卢策吾:也是可以的。非夕之前就是主要做工厂业务,我们做了七八年,营收也做到很高了,所以我们之前在工业场景已经得到验证了。

《财经》:很多工厂已经通过机械臂等实现了自动化,为什么还需要具身智能?

卢策吾:工厂还是有一部分场景需要,但确实我们应该把目标放在非工业领域。工厂里有很多场景是固定的,固定物体、固定动作、固定场景,这里也有具身智能发挥的空间,但不是最大的。具身智能应该往服务业方向发展,而且服务业的规模也更大。

如果只用具身智能去做工业场景,是很可惜的。

教授创业的“标签”

《财经》:2016年的时候,你还在高校工作,为什么会参与创办非夕科技?

卢策吾:当时我还在硅谷,在斯坦福大学,创办非夕之后,回到上海交大任教。

具身智能是一个综合的问题,它既是一个顶尖的产业,又是一个前沿的科学问题。所有的企业都会面临一个技术的黑森林,你不知道要往哪里走,在这里面你会看到,顶尖的产业,顶尖的科学,顶尖的应用,它是一体化的不分彼此的。所以无论是教授还是企业家,在追求顶尖的方向上是一致的。

还有一点就是人才培养问题。我们过去经常会把人才培养和企业割裂开,科研机构培养人才,顶尖人才去支持企业的核心。但你会看到这一轮创业都是科学家驱动的,上一轮是工程师驱动。今天的创业和科研本质上是一体化的,并不矛盾。

《财经》:你在斯坦福的时候,导师是李飞飞,为什么没有选择更偏AI方向或者大模型方向?

卢策吾:我个人认为具身智能是AI的终极状态,因为智能不能只停留在数字世界,不能只识别图片理解语言,我跟你说这是一瓶水,你不去拿起来,摇一摇,就会永远停留在纸面上。这种情况下,AI对于理解的深刻程度是非常有限的。

我们假设未来会有10亿台机器人在外面活动,它们的数据回来之后,既有图像数据,又有语言数据,还有交互数据,三种数据的印证能让机器人对世界的理解更深刻。

人类的智能就是从真实世界的活动里诞生的,如果智能只是虚拟智能,不能走向物理智能,那就永远存在局限性。反过来说,没有物理智能的加持,虚拟智能很快会走到极限。

所以无论从哪个角度来看,具身智能都是最好的选择,当然其他人可能会有不同看法。

《财经》:2016年的时候,波士顿动力已经引发关注了,你当时怎么看这家公司?

卢策吾:第一,机器人需要大脑,很明显那个时候的机器人没有大脑。大脑智能程度觉得这个行业能走多久。

第二,波士顿动力展示了很强的运动控制能力,但更关键的价值是操作。所以我们当时认为大有机会,虽然已经有波士顿动力了,但这个领域还是一个无人区。

《财经》:很多投资人会认为,教授创业的成功率并不高,原因是教授们没办法“All in”到创业中。

卢策吾:他们可能是基于统计,但我觉得还是要看具体的案例。现在的创业是需要科研和人才培养一体化的,如果你是工程师时代的创业者,我觉得可能不太需要。但在今天,你需要科研的视角,一旦走错一点点,将会付出巨大的成本和代价。

具身智能领域的人才还是太稀缺了,我们公司今天的很多核心技术和顶尖人才就是因为我们背后有高校的体系化培养去支持。

另外,你提到的“All in”,我认为这是一个人性的问题,你创业是基于恐惧还是追求,如果是基于恐惧,那你只能做小生意,如果你做的是伟大的事,那要看的是创业者的信仰。

《财经》:越是伟大的事越需要全身心投入。

卢策吾:我们的研发和人才培养方向是一致的,这就是全身心投入。

《财经》:还有一个质疑是认为教授们虽然擅长人才培养和科研,但对于商业化和企业管理方面相对欠缺。

卢策吾:这也是因人而异的。很多时候我们喜欢把人标签化,你是这个身份那你就一定有这些标签。我在非夕做了8年的联合创始人,已经经历了商业周期的起起伏伏,包括管理、商业、资本,如何把一个科研项目变成好的产品,然后变成应用。

用AI的方式来说,贴标签是一个比较误差率很高的方法论。

具身智能是AI的终极方向

《财经》:具身智能行业有什么关键的节点,让这个行业变成现在这么火热?

卢策吾:美国是2016年开始变得比较火热,中国是2023年之后。

我记得很清楚,我2016年回国后,一直做具身智能,2018年左右,我们组织了一场论坛,宣传了很久,最后到场的只有7个人。隔壁会场在讲物体检测之类的话题,有几百个人。我们还没讲完,这7个人里有一半走了,说“啥是具身智能”?

包括我们第一次去融资,也需要跟投资人科普这是什么东西,让学生来报考我们的专业也要不停地去解释。很多人听完会说,你讲得挺好的,但我不关心,因为还有很多其他热门的方向。

到2024年,就不需要再解释了。大模型起来之后,AI通用能力让人们看到了机器人智能的可行性。类似于,爱因斯坦的能量方程出来之后,造出原子弹就只是时间问题了。

《财经》:为什么不直接说机器人,要说具身智能?

卢策吾:因为具身智能本身就是一个独立学科,是经过学科体系认证的。机器人是个载体,我们要做的是具有身体的智能。这个词最早是图灵在1950年提出来的。我们是第一批把这个词翻译过来的,当时也没有什么文献参考,之前有一个词是“具身认知”,就参考这个。

《财经》:美国在2016年机器人兴起的原因是什么?

卢策吾:2016年之前斯坦福的热门研究方向是视觉识别,大家发现,没有交互的情况下,视觉的理解会受限,所以驱动了这一拨人去研究机器人方向。这里面有两拨人,一拨是做深度学习的,一拨是做强化学习的,大家把视觉技术用在下围棋上,这个方向验证成功了,那是不是机器人也可以?

另外当时本身就在做机器人的人,他们看到了AI的魅力。比如我们非夕的创始人王世全,他就是做机器人的,他去斯坦福自学了深度学习。这样几拨人慢慢聚集到了具身智能这个方向上面,所以在硅谷就兴起了。

《财经》:过去AI视觉或是大模型,都有比较丰富的数据集,但我们没有物理交互的数据。

卢策吾:是的,这也是大家一直在谈的问题,几乎所有具身智能的论坛和采访都在绕不开这个问题。

数据我们分两部分,一是前训练,二是后训练。前训练或者说预训练,要求数据量要足够大、足够多样,它要包含所有的场景。后训练就是进入真实的商业环境中了,不能是看什么都懂但准确率上不去。所以对这两类数据的要求是不一样的。

如果要做一个好的预训练数据集,我个人认为需要的是无本体采集。现在很多数据采集是通过机器人来操作,这样很难实现多样性。我们现在有外骨骼采集装备,还有手持的采集设备,希望把数据采集嵌入到人类生活的各种场景中。另外还有世界模型,好的世界模型可以在里面实现物理交互,这是大规模生产数据资产的基础。

预训练完成之后,就要去做专业性的训练了,就是专业的人来有针对性地训练机器人,人来遥控操作机器人,这里面比较关键的商业化的点是“人机比”,一个人可以同时操作多少台机器人,这决定了成本的高低。如果一个人盯着一台机器人,这个账是算不过来的,一个人能同时训练很多台机器人,其中有哪一台错了,就及时调整,这些错误的操作数据再回流,加入训练,效率就会越来越高。

《财经》:世界模型中产生的仿真合成数据,和真实场景中的数据还是有差距的。

卢策吾:是的,有差距,最大的问题就是接触,在虚拟空间中的接触和真实的接触还是不一样,手感和力度的反馈等。我们的解决办法是力位混合大模型。比如我们之前展示过机器人刮胡子的视频,那就是力反馈的展示,力气大一点会刮伤,力气小一点会刮不干净。

《财经》:为什么想到用刮胡子来展示?

卢策吾:我们做了很多场景展示,包括用刀片去刮气球上的泡沫,还有黄瓜切丝,挖冰淇淋球等,这些都比刮胡子更难,但只有刮胡子的视频火了,我感觉还是因为这是更让人有切身体会的场景。

《财经》:今天具身智能的创业公司要如何体现他们的竞争力?

卢策吾:很多维度,最表层是模型能力,再往下是数据管线,底层数据够不够扎实,这决定了你去证明一个想法的速度能有多快,你的迭代速度有多快。然后就是你的商业响应能力。还有你的科研体系,因为还是需要做很多探索性的工作。

这些是技术层面的,还有公司组织力层面。你能不能有高密度的人才,从人才到产品的商业化,再到商业的规模化,这些是需要组织力的。

另外就是商业化的决策,能不能很清晰地判断技术到了什么节点,能去解决什么样的商业场景,如何去把技术复制化等。

《财经》:这些方面现在头部的具身智能公司都说自己很强,我们要怎么去判断?

卢策吾:要实际在行业里做了很多年的人才有能力判断,如果大众都能判断谁好谁不够好,下一步要怎么走,形成共识了,那就已经很晚了,就不需要我们这些创业者了。