As a generation all of us,

we‘re born too late to explore the earth,

we‘re born too early to travel to other galaxies,

we‘re born just in time to solve robotics.

——2025 GTC

在科技飞速迭代、商业格局不断重塑的当下,具身智能作为人工智能与机器人领域深度融合的前沿赛道,正吸引着各界的目光,成为推动产业变革的关键力量。

2025年4月13日,由战略节奏研习社、清华MBA具身智能俱乐部主办,清华x-lab协办,主题为「从产业视角看具身智能发展」的闭门会成功落幕。众多行业精英、专家学者、投资界人士齐聚一堂,围绕具身智能领域的关键议题展开深度研讨,为行业发展提供新思路、探索新方向。

清华MBA具身智能俱乐部主席王明玥在活动开始前介绍了俱乐部创立的初衷与愿景,并展望后续活动规划。

由地瓜机器人技术副总裁秦玉森《具身智能的现代应用与系统化挑战》、华如科技副总裁陈敏杰《解析仿真技术与具身智能的协同进化》专题分享正式开篇。

秦玉森在演讲中指出,智能概念自1950年图灵测试提出后经历了起伏,如今具身智能面临产业规范缺失、技术复杂性、产业链不成熟等挑战。他强调机器人行业需长期投入,技术发展有周期,需找到类似新能源汽车锂电池那样的底层技术突破点,推动行业进步。陈敏杰认为,仿真技术是研究复杂问题的重要手段,可为具身智能提供虚拟环境和海量数据支持。具身智能强调交互性、多模态感知与自主能力,仿真可助力其突破数据瓶颈,加速技术发展。当前具身智能在技术、场景和伦理方面面临挑战,但技术正加速突破,未来有望在自动驾驶、家庭服务等领域广泛应用。

随后阵容强大的嘉宾热烈地进行了圆桌讨论。嘉宾涵盖学术、产业、投资等多个领域。有从产业创新视角为行业发展提供深刻见解的朱恒源教授;在机器人领域深耕 20 多年赵明国教授;推动创意创新创业的清华x-lab郝秀清主任;还有来自学校、企业、投资机构的代表,如刘明豫、侯伟、史雪松、朱向前、刘松铭、秦深涛等,他们从各自的专业领域出发,为会议带来了多元的观点和丰富的实践经验。

会议聚焦四大核心问题:人形机器人的 “GPT moment” 何时发生及呈现形式;人形机器人行业近两年从实验室走向大众视野的变化;人形机器人未来 1 - 5 年最可能的商业化落地场景;人形机器人的技术卡点,以及哪些卡点可能最早突破、哪些需要长期投入。

一、具身智能的“GPT moment” 何时到来?技术与市场的深度结合

朱恒源教授对 “GPT moment”有着深刻的见解。他指出,真正的 “GPT moment”发生之时,一定是企业家要创造出前所未有的新产品、满足新的需求,这需要技术和商业的深度结合。回顾历史,新技术往往先在社会阻力最小的方向展开应用,逐渐改进技术和形成关键需求规模,才会迎来广泛应用。就像内燃机最初应用于火车这个最大的、技术替换门槛较低的需求场景,后来才逐渐拓展到其他领域。对于人形机器人来说,目前还处于技术探索和市场试探阶段,需要不断积累和创新,去寻找那个场景。他进一步解释,在具身智能的发展过程中,单一任务泛化和多任务拓展会引发市场的多样探索。企业和创业者在这个过程中既要努力说服客户发现新需求、购买产品,又要说服投资人提供资金,但成功实现商业价值的只是少数。不过,这些创新尝试为整个产业积累了关键能力,推动了具身智能产业的发展。他强调,从历史经验看,新技术的应用往往从满足已有需求的技术替代开始,逐渐拓展新的应用领域。因此,具身智能的发展也可以遵循这一规律,先从现有场景入手,逐步实现技术突破和市场拓展。

赵明国教授表示,目前行业对 “GPT moment”的到来时间难以确定。他认为,技术的发展充满不确定性,需要在技术突破和市场需求之间找到平衡。在实现这些关键节点之前,行业还需要解决诸多技术和应用层面的问题。

侯伟虽未直接对这两个时刻进行定义,但从他对全身强化学习突破的关注可以看出,他期待技术的质变能推动行业迎来类似 “GPT moment” 的转折,实现更广泛的应用和市场认可。而史雪松则认为,“GPT moment” 可能发生在机器人从单任务迈向多任务,能够通过大语言模型实现与普通人自然交互之时,但目前 VLA 技术还处于初级阶段,存在诸多卡点。“iPhone 时刻” 的实现则更为困难,它需要产品化的重大突破,涉及整个产业链的协同,当前环境下较难达成。

二、行业变化:技术迭代与市场扩张双轮驱动

研究机器人多年的赵明国教授,对行业变化有着深刻的感受,他提到,过去搞人形机器人的人寥寥无几,企业也屈指可数,如今参与人数和企业数量大幅增长。特斯拉的进入带来了产业模式的转变,英伟达以大规模仿真推动技术发展,AI 领域众多企业的参与使行业技术得到了快速发展。但他也指出,中国和美国在行业发展上存在明显差异。美国企业凭借雄厚资金和长远战略布局,积极投入资源推动行业发展;中国企业则多着眼于短期利益,缺乏像美国企业那样的革命性举措。此外,他还强调,目前行业内对一些关键技术,如 VLA 的理解和应用存在不足,整个行业未来两三年可能会面临大洗牌。

刘松铭博士分享了自己投身于具身智能学术研究的原因:大模型技术的进步使人形机器人在智能层面有了更多可能,同时特斯拉、谷歌等企业的相关工作,让该领域展现出突破的潜力。

郝秀清主任从资本和创业的角度进行分享:资本对具身智能的关注度不断提高,创业者也纷纷涌入这个领域,中国在该领域呈现出百家争鸣的态势。希望我们的同学抓住风口。

侯伟认为,GPT 的出现让人们看到了 AI 的泛化能力,引发了对具身智能的想象,同时中美科技竞争也促使国内加大在该领域的投入。虽然过去他对人形机器人行业有所悲观,但近期全身强化学习领域的突破让他看到了行业的新希望,人形机器人在表演领域已逐渐形成市场,满足了人类对其的想象力。

史雪松则从技术落地的角度谈到行业变化。他提到,近年来资本对具身智能的关注度大幅提升,这促使大量企业涌入赛道,在一定程度上加速了技术从实验室走向实际应用的进程。不过,这种热度也带来了挑战,许多企业在技术尚未成熟、应用场景尚未清晰的情况下盲目跟风,可能导致行业发展的泡沫化。他强调,技术落地需要扎实的研发和对市场需求的精准把握,不能仅靠资本推动。

从事军工行业的陈敏杰从以往参观亦庄机器人大会的体验以及对俄乌战争的观察,看到了发展具身智能的必要性和重要性。

三、商业化落地:短期聚焦细分,长期探索多元

在探讨人形机器人未来 1 - 5 年的商业化落地场景时,朱恒源教授在这个问题上强调,企业应根据自身资源和战略定位选择合适的投资方向。不同规模的资金在投资策略上有所不同,要充分考虑技术应用的场景和需求,通过技术替代满足已有需求,逐步拓展商业前景。

华山资本合伙人刘明豫以 figure AI 为例,指出其高估值背后是宏大的故事、明星团队、技术落地以及与头部企业合作的落地场景。她认为国内企业可在估值、技术落地和场景应用上对标,但同时强调要关注垂类机器人投资,先抓住确定性的机会,如核心零部件投资,再逐步关注整机公司。

赵明国教授对人形机器人未来 1 - 3 年的商业化落地持谨慎态度,他认为短期内人形机器人难以实现大规模商业落地。从产品形态来看,轮臂和手部相关产品可能会率先落地,教育科研领域目前已经是一个可行的市场,未来三到五年,展演、简单服务等场景也可能会逐步扩大。他还提到,中国在人形机器人领域应具备超越美国企业的勇气和决心,以更高的性价比参与国际竞争,但也要注意其中的风险。

侯伟结合自身经验,指出科研领域和灵巧手相关应用目前已有一定的商业化成果。国内外客户需求存在差异,国内在表演、迎接等场景有发展机会,国外则在物流领域有一定应用。随着机器人操作能力的不断突破,应用场景将进一步扩大。

史雪松从行业发展规律出发,建议先将机器人在单一任务上做稳定,解锁商业和工业应用。通过提高机器人的泛化性能,相比传统工业自动化,可在一些场景中获得竞争优势,实现垂类应用,有望在未来一两年养活一批企业。他还强调,企业在选择商业化落地场景时,要充分评估自身技术优势与场景需求的匹配度,优先选择对技术依赖度高、市场需求迫切且能快速形成规模效应的场景。

四、技术卡点:数据与架构是核心难题

在技术卡点方面,秦深涛从数据基建角度出发,认为具身智能目前尚未探索到数据的边界,数据利用率难以提升。自动驾驶领域面临的数据成本高、质量提升难等问题,在具身智能领域同样存在,且具身智能的技术卡点解决起来可能更具长期性。他强调应思考如何构建高效的数据体系,提高数据质量,降低成本,同时优化架构,提高数据应用效率。他指出,数据是具身智能发展的基础,只有解决了数据问题,才能为技术的进一步发展提供支撑。

关于具身智能模型能力的问题,他认为当前机器人获取数据困难,与人类学习能力相比,模型在推理和解决新问题方面可能存在不足,或许是因为模型不够好,数据规模也不够大。秦深涛对此回应,模型能力的提升确实受到数据和架构两方面的制约。从数据角度看,机器人难以像人类一样在日常生活中自然地获取大量多样化的数据,且现有的数据规模与训练出真正泛化模型所需的规模相差甚远。从架构方面来看,现有的模型架构在处理复杂任务时,缺乏像人类大脑那样高效的推理机制。虽然增加数据量可以在一定程度上提升模型性能,但当数据量达到一定程度后,收益会逐渐递减,且面对分布外的数据时,模型的表现会急剧下降。他提出,要解决这些问题,需要从多个方面入手,探索更有效的数据获取方式,优化模型架构,引入更先进的算法和技术。

最后问答环节,自动化系博士于同学提了一个非常好的问题“人形机器人的小脑、大脑和本体三个方向,从学术角度来说,这三个方向哪个更重要?从商业落地角度来说,这三个方向哪个赛道可能更宽?”引发了嘉宾热烈探讨。

赵明国教授认为,将人形机器人简单地分为本体、小脑和大脑并不科学,具身智能强调的是各部分的复合与协同。从根本逻辑上讲,不能单纯地认为某一部分好就一定能推动行业发展。每个部分只要做到极致,都有其用武之地。他强调,企业和个人不应将命运赌在某一个点上,而应根据自身能力,在擅长的领域做到顶尖,这样无论行业如何发展,都能找到自己的机会。他以自身在行业中的观察为例,行业发展需要的是多元化的探索和创新。

朱向前从投资和产业视角出发,认为应从应用场景落地的角度思考这个问题。他指出,在未来两到三年,人形机器人可以先满足科研市场、教育市场的需求,这些市场虽然碎片化,但具有确定性。同时,面向商业交互场景,人形机器人也有发展机会,比如结合自动驾驶的视觉感知和移动导航技术,人形机器人可以在文旅、教育、政务等场景中提供服务。他强调,企业要关注技术的可达性和市场空间,选择适合自己的细分场景进行突破。对于轮式人形机器人,在特定任务中,如上下料、搬运等,大脑(决策和控制能力)更为重要;而对于一些强调本体稳定性的场景,如展示、表演等,本体则更为关键。他建议创业者和投资者要脚踏实地,关注短期的商业价值,同时也要有长远的眼光,跟随前沿技术的发展。

侯伟在回答该问题时表示,从商业落地角度来看,本体(肉身)目前在科研领域和一些表演场景中更容易落地,比如为科研提供实验设备,在表演场景中展示。但如果要实现真正的通用人工智能,本体、小脑(控制能力)和大脑(决策能力)三者缺一不可。他以加速进化的产品为例,说明在科研市场中,本体性能良好的机器人具有明确的市场需求。而在控制方面,虽然重要,但它依赖于本体,且面临着与不同本体适配的问题。大脑则更偏向于泛化的决策,一些企业专注于上层操作的研发,但要真正实现复杂任务的处理,还需要三者的协同发展。他认为,不同的细分场景对各部分的需求不同,企业应根据自身定位和市场需求,合理布局研发方向。

本次具身智能俱乐部闭门会为参会者提供了一个深入交流和思想碰撞的平台,各位嘉宾的观点和见解为行业发展提供了宝贵的参考。具身智能的发展前景广阔,但也面临诸多挑战,需要行业各方携手共进,以创新为驱动,以市场需求为导向,稳步推动技术进步和产业发展,共同开启具身智能的新时代。