这个视频,Phil Beisel介绍《The AI Merge That Changes Everything for Tesla 》,向大家介绍了特斯拉正通过统一的AI架构,将全FSD的积累扩展至具身智能领域,使人形机器人Optimus得以共享同样的数据管线、仿真系统、训练方法与硬件平台。
这种复用是一次系统层面的融合,特斯拉正在打造一个面向多形态机器人的通用AI平台,从技术和系统架构的角度,我们来看看特斯拉如何在FSD和Optimus之间实现“视觉到行动”的统一 。
图片
01
视觉驱动的通用智能:
从四轮到双腿的统一
特斯拉的自动驾驶与人形机器人表面上属于完全不同的领域,一个面向高速行驶的车辆,一个面向动态行走与操控的机器人,但在技术内核上共享同一逻辑:都依靠视觉系统理解世界,并基于神经网络生成动作指令。
FSD是“四轮机器人”,Optimus是“具身机器人”,都是特斯拉在“以视觉驱动物理世界”的技术框架下的延伸产物。
图片
在硬件层面,两者都依赖以摄像头为主的视觉感知系统。
FSD利用八个环绕车身的摄像头实现360度感知,而Optimus的双目摄像头加后置镜头则构建出与人类相近的视觉范围。
尽管运动输出差异极大——车辆的控制仅限于加速、刹车、转向,而Optimus需协调腿、手、头部乃至躯干的多自由度运动——但其决策路径一致:从视觉输入,到AI感知,再到动作输出,全过程均由端到端神经网络完成。
模式关键在于FSD多年来积累的“视觉-行为映射”经验。
特斯拉通过数百万辆车实时采集的驾驶数据,建立了庞大的多模态数据管线。这一管线不仅包含视频帧,还融合了惯性测量单元(IMU)、GPS和音频等时序数据,形成了高度同步的多传感器数据集。
这套系统成为Optimus的学习起点,使其在机器人阶段无需从零开始建立“世界模型”,而是复用FSD的成熟管线,实现从道路到空间场景的迁移学习。
图片
更深层的共通在于神经网络结构。
特斯拉的FSD已全面转向混合专家(Mixture of Experts,MoE)架构,这是一种将不同技能模块化的网络设计。每个“专家”对应特定场景下的行为策略,例如城市交通、匝道变线或恶劣天气。
而在Optimus中,这些“专家”被映射为具体动作技能,如抓取、行走、平衡或避障。系统通过实时权重分配激活不同模块,实现多技能协同。
这种技能化的AI结构,使得特斯拉的AI系统可以在“开车”与“搬运物品”之间共享学习框架。
图片
这一架构背后,是特斯拉对“通用具身智能”路线的深度布局。
通过在不同物理形态中共用数据和模型,特斯拉实际上正在训练一个跨领域的物理AI系统。
FSD是其验证场景,Optimus则是其具身化延伸。当两者的AI模型共享视觉语义、运动逻辑与学习机制时,特斯拉就拥有了一个能够支撑多种机器形态的统一大脑。
02
从仿真到强化学习:
统一训练系统的工程逻辑
FSD与Optimus共享的不仅是视觉与网络结构,更关键的是整个训练和仿真体系。特斯拉通过庞大的仿真引擎与强化学习(RL)系统,让AI可以在虚拟环境中反复试错,从而加速智能体的成长。
在自动驾驶领域,特斯拉构建了基于真实道路的高保真仿真器。
该仿真系统能够重建旧金山等城市的复杂路口环境,调整道路几何、交通规则与光照天气条件,用于生成丰富的训练场景。这些场景既用于FSD软件的回归测试,也为模型生成合成数据,提高其在稀有边界情况(corner cases)下的表现。
这一机制被无缝移植到Optimus上。相同的仿真引擎被用于构建家庭、工厂、仓储等场景,让Optimus在虚拟世界中学习如何完成装盘、行走、抓取等任务。
不同于传统机器人依赖工程师设定动作轨迹的方式,特斯拉采用模仿学习与强化学习相结合的方式:先让AI学习人类演示的基础动作,再通过仿真环境中的海量试错优化行为策略。每一次“成功”的动作都会得到奖励信号,系统据此调整参数,实现自主学习。
这种训练方式的高效之处在于,它利用FSD积累的全部训练管线,包括数据打包、自动标注、批量训练与验证循环。
特斯拉不需要为Optimus重建数据基础设施,而是直接在既有框架上扩展人形任务。
甚至连底层推理硬件也完全共通:目前FSD运行在特斯拉自研的HW4芯片上,而Optimus原型同样搭载这一平台。未来两者都将升级至AI5芯片,实现更高的推理效率。
特斯拉的目标不仅是让Optimus“学会走路”,而是让它像FSD一样具备自我进化的能力。
随着两者的AI模型在训练和推理层面逐步统一,FSD的驾驶经验将转化为机器人在物理世界中的操作直觉,而Optimus的具身学习又能反哺FSD的感知与决策算法,形成正向循环。
这正是特斯拉系统性工程能力的体现:通过架构复用与闭环训练,使两条看似独立的智能系统路线在底层实现融合,从而显著降低研发成本,提高通用智能的学习效率。