安博体育官网 分类>>

何小鹏的技术豪赌:第二代VLA与FSD偶遇剑指L4落地安博体育- 安博体育APP下载- 官网

2026-01-05 14:00:58
浏览次数:
返回列表

  安博体育,安博体育APP下载,安博官方网站,安博官网,安博体育官网

何小鹏的技术豪赌:第二代VLA与FSD偶遇剑指L4落地安博体育- 安博体育APP下载- 安博体育官网

  等新车型的预告,也有全年销量数据的披露,更重要的,是围绕小鹏新一代智能驾驶系统

  第一个拍摄于美国(如下图)。何小鹏亲自坐在主驾位置,在城市、高速、停车场等多个场景中,深度体验了特斯拉最新的FSD V14.2辅助驾驶系统,并实际乘坐了处于试运营阶段的特斯拉Robotaxi。

  另一个则拍摄于国内,集中展示了VLA2.0在真实道路环境下的表现,并明确预告,即将发布的2026款P7+和G7也会载这一系统。

  将这些内容放在一起看,很难把它们理解为一次偶然的技术“参观”或零散的信息披露。更合理的解释是:

  在对智驾一号位和技术路线同时进行更换、且VLA2.0即将推送给用户的大背景下,小鹏汽车正在主动向外界展示其最新一轮技术判断与路线选择。

  小鹏现任的智驾一号位刘先明(下图左一)此前在接受采访的时候讲到,大概是2025年初跑通了VLA2.0。根据时间规划,2026年一季度即将率先给小鹏量产车型的Ultra版本推送。

  从研发周期来看,VLA 2.0自2025年春季启动,11月5日对外发布时,已经完成了从技术设想到测试验证的全部流程,马上要进入到工程化与产品化的阶段。

  此时的何小鹏与智驾团队要回答几个关键问题:第一个量产版本要做到什么水平?哪些能力必须达到,哪些体验可以后续逐步更新?2026年整体要实现哪些功能目标?

  借着何小鹏每年去美国了解AI等前沿科技发展趋势的机会,顺便体验一下特斯拉的FSD V14.2(下图为FSD处理复杂场景),看看这套已经量产交付的美国最强端到端系统的实际表现,才能更好地校准自己的答案与节奏。

  从何小鹏在VLOG里面讲到的很多细节可以看出来,他通过自己的实际体验,其实已经获得了他想要的答案了。并且在美国还跟小鹏硅谷团队立下赌约:2026年8月30日,要达到FSD 14.2在硅谷的表现(否则智驾一号位去金门大桥裸跑一次)。

  他的判断框架是,在高标准的大路上表现好,是下限。在小路、园区、停车场、复杂博弈等更多的极限场景表现好,则是上限。下图为VLA2.0在广州大路的表现。

  按照何小鹏的说法,2025年底,VLA2.0的基础模型已经做得不错了。进入2026年之后,第一步要先把功能和性能、安心感这些基础东西做到位,场景上先把下限打磨好,然后去攻克更多的极端场景,并且部分场景要做到比特斯拉更胜一筹。

  从两个视频里的画面来看,特斯拉FSD V14.2面对的路况相比国内要更简单一些,而小鹏的VLA2.0在与行人、电动自行车的博弈上已经展示出了更强的能力。

  从功能上来看,特斯拉在美国已经实现了车位到车位的领航,这一点比较领先(如下图)。但在停车场场景里,其找车位的能力并不是很强。因此何小鹏也表态说,2026年要在国内场景下把车位到车位的领航功能做到极致。

  整体来说,通过何小鹏的两个VLOG,我们其实可以看到何小鹏不仅进一步验证了他内心的答案和设想,并且通过真实的对比,他对VLA2.0的表现有了更强的信心。

  通过何小鹏的VLOG,我们能从功能表现上,看出FSD V14和VLA 2.0的一些区别。而如果再把特斯拉的自动驾驶专家Ashok放出的FSD的架构图与小鹏汽车VLA 2.0的技术架构图对比一下,则发现两者的技术逻辑非常相似。

  小鹏的VLA2.0相比传统VLA,官方讲的最大的变化是拆掉了“语言”的部分,提升了推理速度,并且因此得以绕开离散的语言数据难以表示连续的物理量这个行业难题。

  因为技术保密等原因,实际上小鹏官方在发布VLA2.0的时候并没有讲太多细节。

  所谓拆掉语言,本质上是说,VLA 2.0相比VLA 1.0,或者说相比传统意义上的VLA智驾系统,其最大、也是最本质的变化在于是不使用LLM大语言模型进行推理。

  其核心的推理模型,其实是一个能处理视觉、语言、本车状态信息和动作(轨迹)的多模态Transformer大模型。

  而如果是标准的VLA系统,其用来推理的模型,大概率是一个预训练过的LLM大语言模型(下图为谷歌的VLA系统RT2的架构,推理引擎是LLM),也就是现在的各种聊天机器人同款的模型。

  RT2这类模型虽然通过预训练掌握了很多知识,但是最核心的问题是其模型本身是为了处理离散的语言数据而设计的。用它做自动驾驶推理,需要先把图像数据用encoder变成跟类似语言token的图像token,然后再把图像token和语言token对齐,然后再进入LLM进行推理,推理给出的结果是语言token,还需要把语言token再转译成具体的动作。

  所以说,传统VLA经历了两次“转译”,推理延迟更大,并且因为语言是离散的数据,它很难完美表示连续的物理量,所以这条路径量产的时候面临不小的挑战。

  特斯拉的自动驾驶技术高管Ashok在ICCV2025上也分享过特斯拉的技术架构(如下图),其核心的推理模型是一个叫做LNN(大型神经网络)的多模态模型,也不是LLM大语言模型。

  这个LNN可以同时输入视觉、导航地图、声音、本车状态等多种模态的信息,然后联合推理,先是给出中间结果,包括周边的全景、占据网络、3D高斯泼溅、语言等信息,然后再基于这些中间结果做推理,给出驾驶决策。

  小鹏官方公布的VLA2.0的架构与特斯拉的架构整体一样,核心推理引擎都是一个多模态大模型。下图为VLA2.0架构,与特斯拉的架构类似。

  值得注意的是,小鹏在云端还有一个世界模拟器,通过输入实车采集的世界状态数据(以隐空间向量的形式存在),让模拟器生成更多的驾驶决策并对其进行打分,通过打分来让模型学会更好的决策行为,从而更新VLA2.0这个核心推理模型的参数,最终实现更好的推理效果,不断重复,来提升智驾的表现。

  小鹏汽车的智驾负责人刘先明此前在采访时讲到过,他们此前并不知道特斯拉的FSD V14是怎么做的,而是在小鹏摸索完毕后,看到了特斯拉的演讲,才发现双方的技术架构竟然非常相似,有一种英雄所见略同的感觉。

  当然英雄所见略同不是玄学,而是在现有的技术条件下,大家通过摸索,在目标一致的情况下,路径自然是越走越相似。

  何小鹏在美国期间,除了体验量产车上的FSD V14.2,还在旧金山实际乘坐了特斯拉的Robotaxi。他的评价是,乘坐Robotaxi与体验FSD V14.2,在体感上并没有明显差异。

  这一判断本身,已经揭示了一个重要的技术事实:无论是小鹏的VLA2.0,还是特斯拉的FSD V14,其所采用的多模态大模型架构,本质上已经具备通向L4的能力基础(下图为特斯拉Robotaxi)。两者的差异,更多体现在法规、产品形态以及运营方式上,而非核心技术路径的不同。

  第一层影响,是L3级自动驾驶正在被加速“边缘化”,成为一个典型的过渡产物。

  在规则驱动时代,自动驾驶能力的提升主要依赖“笨办法”——堆叠传感器、引入高精地图、不断增加规则覆盖范围。这种路径下,系统能力的提升是线性的、缓慢的,并且始终受制于规则的复杂度和维护成本。

  这种技术条件下,如果希望在可控风险内实现“无人驾驶”,唯一可行的方式,就是通过极度收缩运行范围来换取确定性。

  L3正是在这一背景下诞生的:它本质上并不是一个完整意义上的自动驾驶等级,而是“运行范围被严格限制的L4”。例如,只允许在特定高速路段、特定速度区间、特定交通状态下启用。

  但随着以大模型为核心的数据驱动范式成熟,自动驾驶系统的能力提升方式发生了根本变化。当模型规模、训练数据和算力投入跨过某个阈值后,系统能力不再是线性增长,而是呈现出明显的跃迁特征。

  在这种情况下,继续通过“限定运行范围”来实现自动驾驶,反而失去了必要性。模型一旦具备足够的泛化能力,其自然会在更广泛的场景中表现稳定,L3这种以“范围限制”为前提的产品形态,便失去了存在基础。

  第二层影响,是此前围绕L2到L4的“渐进派”与“一步到位派”之争,正在走向终结。

  一种观点认为,应当通过限定场景、限定区域,直接构建L4系统;另一种观点则认为,应当从L2级辅助驾驶做起,在真实道路环境中持续积累数据,并通过不断迭代模型,最终实现能力跃迁。

  从结果来看,真正具备可持续性的路径,是通过L2级辅助驾驶大规模上车,在真实世界中持续获取高质量数据,同时依托卖车形成现金流,反向支撑云端算力、模型规模以及芯片能力的持续投入。

  当数据、模型和算力形成正向循环,并在某个时间点跨过能力阈值时,系统自然完成从L2到L4的跃迁。

  在这一过程中,所谓的“直接派”在现实中很难成立——缺乏规模化数据来源、缺乏稳定现金流,最终都会制约系统能力的持续进化。而渐进路线,则在商业与工程层面同时具备可行性。

  因此,在范式切换完成之后,行业真正的分化点已经不再是“选哪条路线”,而是谁能把从L2到L4的数据—模型—算力飞轮长期跑下去。

  从目前公开的信息来看,小鹏汽车已经完成了技术架构的切换,并在核心路径上与特斯拉高度趋同。接下来,决定胜负的,将不再是概念和口号,而是工程执行力、数据规模以及对云端与车端算力的持续投入能力。

  对小鹏而言,这确实是一场技术豪赌。但在自动驾驶范式已经完成切换的当下,不下注,反而才是风险最大的选择。

搜索