具身智能被视为继大语言模型之后人工智能领域的下一波浪潮,承载着从“数字智能”迈向“物理智能”的宏大愿景。资本市场与产业舆论经历了从极度亢奋到理性回归的急剧转折。本文旨在对具身智能产业的现存问题进行系统性、结构化的深度复盘,指出其在技术路线、商业落地、资本生态与产业基础四个维度上面临的深层梗阻。核心论点在于,当前的产业困境并非源于潜力不足,而在于主流发展范式——将大语言模型的快速成功模式直接“平移”至物理世界——与具身智能高度复杂系统工程特性之间的根本性错配。产业必须完成一场从“软件思维”向“硬核系统思维”的认知迁移,才能跨越泡沫破裂后的低谷,走向真正的成熟。

一、引言:潮水退去后的礁石
过去两年,具身智能领域经历了一场过山车式的叙事转换。2023年至2024年初,随着多模态大模型的突破,市场迅速勾勒出一幅“通用机器人即将走入千家万户”的瑰丽图景。热钱涌入,初创公司估值高企,科技巨头纷纷入局,似乎通用型“具身代理”的iPhone时刻近在咫尺。
然而,到了2025年至2026年初,产业情绪明显转向冷静。除少数头部企业获得新融资外,更多初创公司面临现金流压力,产品交付延迟、场景落地受阻的消息不绝于耳。标志性的人形机器人从炫技式的视频演示走向真实产线时,其动作的流畅性、任务的完成度和稳定性远逊于预期。这标志着产业正式进入了泡沫破裂后的低谷期。此刻,对困扰产业发展的根本性问题进行一场冷静、不带滤镜的复盘,比以往任何时候都更为关键。
二、技术反思:大语言模型范式在物理世界的“能力边界”
当前具身智能技术路线的核心是“大语言模型/视觉-语言模型+机器人”的端到端学习范式,寄望于让模型在海量数据中自行涌现出物理世界的操作智能。这一路径带来了前所未有的泛化能力,但也暴露出几个深层瓶颈。

首先,数据困境是制约技术迭代的“阿克琉斯之踵”。与互联网上近乎无限的文本、图像数据不同,高质量的具身交互数据极度稀缺。真实世界的机器人操作数据采集成本高昂、周期漫长,且受限于物理规律,无法像生成文本一样被无损地“仿真扩增”。仿真环境中的合成数据面临严重的“仿真到现实迁移”鸿沟,在纹理、光照、动力学特性上的细微差异,就足以使在仿真中训练好的策略在现实中失效。这导致了一个根本性悖论:实现通用智能需要海量数据,但获取海量数据的物理载体本身却需要足够智能才能大规模部署。
其次,“莫拉维克悖论”在当前范式下被重新放大。大语言模型赋予了机器人流畅对话和高级语义理解能力,但这种能力与底层的灵巧操作、动态平衡控制之间存在巨大脱节。一个机器人可以文采斐然地论述如何冲泡一杯咖啡,但其本体却可能连稳定抓取不同材质、形状的杯柄都难以实现。高阶的认知推理无法直接转化为低阶的传感器-运动控制,传统机器人学中经过数十年积累的模型预测控制等可靠方法,与数据驱动的端到端网络在系统层面难以有机融合。这导致机器人常常表现为“思想上的巨人,行动上的侏儒”。
最后,评估体系的缺失使技术进展真假难辨。实验室特定环境下的单次成功演示,经过精心剪辑的视频,极易制造出技术飞跃的假象。产业缺乏一套公认、标准化、能够测试机器人在非结构化环境中长周期、全自主完成任务能力的评测基准。投资者和公众难以区分真正的突破与仅仅是更精良的工程优化演示,这严重扭曲了技术价值的评估信号。
三、商业逻辑断裂:在“通用愿景”与“专用落地”间迷失

具身智能公司普遍面临一个致命拷问:究竟是卖“能解决特定问题的机器人方案”,还是卖“通往通用具身智能的平台”?这种定位的摇摆直接导致了商业模式的模糊不清。
当前,人形机器人公司陷入了“类人形态”的陷阱。双足行走、双臂灵巧操作的类人形态,因其极高的技术集成度和与人类环境天然适配的长期潜力,成为资本市场的宠儿。但在几乎所有当下的工业和服务业场景中,轮式底盘加单臂或双臂的非人形专用形态,在成本、稳定性、能效和维护上都具有碾压性优势。企业投入巨资研发的类人双足,在面对地面的一道门槛或一处油污时可能就会失效,而一台轮式机器人早已高效完成了工作任务。为追求“终极形态”而忽视了满足当下市场需求的最小可行产品,导致大量资源被消耗在短期无法产生商业闭环的极致性能追求上。
更深层的问题是,产业尚未识别并定义出真正的“高价值、高频率、高痛感”核心场景。许多探索仍停留在表面。例如,在汽车总装线中从事拧螺丝、插接柔性线束等任务,其精度和适应性要求对于现有技术而言仍然过高;而在家庭场景中,叠衣服、整理房间等任务过于复杂且客户支付意愿模糊。最终,机器人被降级为展馆导引、简单搬运等低附加值任务的执行者,其创造的单一价值无法覆盖其高昂的硬件成本和运维费用。企业陷入了“技术展示惊艳——场景试点受挫——收入微不足道”的死亡螺旋。
四、资本生态的路径依赖与泡沫化反
产业当前的困境,部分源于资本用投资“软件平台”的逻辑去催熟一个“硬件+系统”产业。
初创公司为迎合资本偏好,普遍陷入“以融资速度定义技术里程碑”的叙事竞赛。资本追求的高增长、高毛利、网络效应等软件行业特征,被生硬地套用在以硬件为核心、遵循线性增长规律、具有显著规模不经济特征的机器人产业上。公司被迫发布一个又一个“超越”演示,不断推高估值,却忽视了工程化、供应链、量产可靠性和售后服务体系这些决定长期存活的“脏活累活”。当这些公司带着天价估值来到一级市场后期甚至试图登陆二级市场时,其空虚的商业实质将难以支撑其叙事,极易引发估值体系的系统性崩塌。
同时,产业资源的配置出现严重错配。巨额资金集中于少数明星初创的本体研发和通用模型训练,造成了低水平重复建设。而产业链上游的关键共性技术,如高力矩密度、高力控精度的微型执行器,低延迟、高带宽的专用触觉传感器,以及实时、高能效的边缘具身计算芯片等,却长期投入不足,高度依赖进口或从其他领域改造借用。这种“重下游整机、轻上游部件”的生态,导致整机成本居高不下,核心性能受制于人,形成产业发展瓶颈。
五、产业基础的结构性短板
在喧嚣的算法竞赛背后,是更为严峻的产业基础问题。
工程化落地能力是头号短板。一个实验室演示原型与一款可7x24小时在真实工业环境中稳定运行的产品之间,存在一条巨大的鸿沟。它要求严格的可靠性测试、环境适应性设计、功能安全认证、以及对长尾工况的全覆盖。当前许多团队精于算法创新,但在结构设计、热管理、电磁兼容、生产工艺等系统工程能力上严重不足。当机器人从“能跑起来”走向“能卖出去”,系统集成过程中的无数工程细节才是决定成败的关键。
复合型人才的结构性短缺同样致命。产业急需同时理解人工智能、机器人控制、机械/电子硬件和具体应用场景的“T型”甚至“π型”人才。当前,研究人员多来自计算机视觉和自然语言处理背景,对机械本体、驱动与传感的物理极限缺乏深刻体感;而传统机器人工程师又对大规模数据驱动的方法存在路径依赖。这种知识的断层,使得软硬件无法高效协同设计,进一步放大了技术融合的困境。
六、跨越裂谷:从“软件迁移”到“硬核系统思维”的范式重构
要走出当前的低谷,具身智能产业必须放弃一蹴而就的幻想,完成一次深刻的范式重构。
在技术路线上,应从数据驱动的浪漫主义,走向机理与数据融合的实用主义。必须将传统机器人学中经过验证的几何感知、动力学模型、优化控制等方法,作为结构化先验融入到端到端学习网络中,而不是试图完全替代它们。这能大幅提高数据效率,保证系统行为的底线和可解释性。同时,要建立以“真实世界长周期操作成功率”为核心的行业评测标准,让技术进展从不可证的演示回归可量化的工程指标。
在商业落地上,必须战略性地接受从“专用”到“通用”的渐进路径。找到那些痛点明确、指标可衡量、且现有非智能自动化设备覆盖不足的垂直场景(如特种行业的精密装配、高危环境作业、高柔性化物流码垛等),以专用形态的可靠产品实现单点打穿,形成商业与数据飞轮。人形通用机器人应作为长期攀登的珠穆朗玛峰,而非启动时的第一站。
在产业生态上,需要一场从供应链到人才培养的补课。资本应引导向核心零部件、仿真软件、数据集服务、检测认证等基础设施领域流动。高等教育和职业培训体系需迅速调整,培养大批机器人系统工程师、应用集成调试工程师,填补从实验室原型到工厂产线之间的最大人力缺口。
七、结论
具身智能产业正站在一个由狂热幻想转向冷静现实的十字路口。潮水退去,暴露的不是暗礁,而是我们必须尊重并逐个攻克的技术、商业与产业构建的硬核课题。这次复盘清晰地指出,核心症结在于以软件业的爆发式增长范型来驱动一项重工程、长周期、高壁垒的系统性产业革命,这是根本性的路径错配。

穿越这个低谷期的关键,不在于另一场炫目的技术演示,而在于拥抱一种更为成熟和务实的产业理性。当产业能够坦然接受“慢就是快”的规律,将科研突破、精密工程、商业逻辑和产业生态当作一个完整的系统工程来协同推进时,具身智能才能真正走出潜伏期,迎来属于它的黄金时代。这是一场马拉松,而我们甚至还未完全通过起跑后的第一个补给站。