理想重押VLA,“端到端”模型负责人夏中谱将离职

文   |   李安琪

编辑   |   李勤 杨轩

36 氪汽车独家获悉,理想汽车辅助驾驶 " 端到端 " 模型负责人夏中谱将于近期离职。夏中谱的职级为 21 级,直接汇报给理想辅助驾驶研发副总裁郎咸朋。

有知情人士表示,夏中谱已经退出理想最新的辅助驾驶方案 VLA 项目组,数周没有参加业务例会。但离职后,夏的去向尚未明确。

对于上述信息,36 氪汽车向理想汽车官方求证。截至发稿,未获官方回应。

夏中谱于 2023 年加入理想,主要负责辅助驾驶系统的规划控制模型。此前,夏中谱曾在百度的自动驾驶部门任职。

夏中谱负责的技术模块,是理想汽车当时 " 端到端 " 辅助驾驶方案落地的关键。由于方案效果不错,理想将辅助驾驶团队调整为 " 端到端 " 模型、世界模型、量产研发三大部门时,夏中谱正式成为 " 端到端 " 模型负责人,直接汇报给郎咸朋。

在理想 2 年时间,夏中谱从 P9(对应理想新职级体系 19 级)升到了 21 级,这种升职速度在理想内部并不多见。

不过,有知情人士告诉 36 氪汽车:夏中谱的离开,或许与理想的辅助驾驶技术路线变更有关。

" 夏中谱认为端到端路线还有可以优化的空间,但理想内部已经押注了 VLA(Vision-Language-Action,视觉 - 语言 - 动作)模型路线。" 有知情人士说道。

5 月 7 日,理想汽车 CEO 李想在其 AI Talk 中,称 "VLA 是一个像人类司机一样工作的司机大模型。" 理想为此还投入了超过预期 3 倍的训练卡数。

辅助驾驶团队管理层也有更多资源,据 36 氪汽车了解,理想辅助驾驶负责人郎咸朋职级已经升到了 24 级。VLA 技术路线则由自动驾驶技术研发负责人贾鹏主导,此前贾鹏还曾负责理想世界模型等技术预研。

2023 年至今,理想汽车的辅助驾驶技术路线经历了数次切换:从依赖高精地图、基于规则的方案,切换到 " 端到端 ",再到如今的 VLA 模型路线。

" 端到端 " 方案落地,是理想汽车打响名声的关键一战。" 端到端 " 方案由特斯拉率先实践落地,比起过往依赖于工程师手写的规则方案," 端到端 " 更加依赖 AI 模型的自主学习能力,辅助驾驶系统的 " 感知 - 预测 - 规划 - 控制 " 链条信息也能实现无损传递。

理想的 " 端到端 " 方案从 2023 年 11 月开始立项,由于落地效果突出,理想于 2024 年 10 月向 Max 版本用户全量推送了 " 端到端 +VLM(视觉语言模型)" 方案。" 比原定落地时间提前了两个月。" 知情人士表示。

理想也因此摆脱了辅助驾驶 " 落后生 " 的身份,迅速挤入行业第一梯队。夏中谱作为 " 端到端 " 量产负责人也得到内部晋升机会。

但理想汽车并不认为," 端到端 " 是自动驾驶的终极答案。

在今年 5 月 7 日的 AI Talk 中,理想汽车 CEO 李想阐述了内部技术路线换代的思考。他表示," 端到端 " 并不完全理解物理世界,更像一种模仿行为。" 端到端应付大部分的泛化是没有问题的,但面对它从来没有学到的、特别复杂的(场景),就会遇到问题。" 李想说道。

尽管理想在 " 端到端 " 方案中加入了 VLM(视觉 - 语言)模式,但内部仍认为 VLM 能起到的作用有限。

理想汽车更看好的技术路线是 VLA(视觉 - 语言 - 动作)。VLA 模型最早由谷歌 AI 公司 Deepmind 推出,主要用于机器人领域,随后逐渐成为具身智能领域的主流技术范式与框架。

与 ChatGPT、Sora 等视觉语言模型(VLM)不同,VLA 新增了与物理世界交互的 " 动作 " 能力。换句话说,VLA 不仅理解周围环境,还能直接输出控制指令,如机器人动作或车辆驾驶决策等。VLA 也随之被应用到辅助驾驶领域。

理想认为,VLA 能通过 3D 和 2D 视觉的组合,完整地看到物理世界,而不像 VLM 仅能解析 2D 图像。同时,VLA 拥有完整的脑系统,具备语言、CoT(思维链)推理能力,既能看,也能理解并真正执行动作,符合人类的运作方式。

而增加辅助驾驶系统的世界通识能力、推理能力也正成行业的一大趋势。近日蔚来汽车发布的世界模型方案也强调了对交通路牌和文字的识别能力;小鹏此前发布的云端基座大模型也具备复杂的链式推理能力,蒸馏到车端后,能实现大模型控车的效果。

不过也有行业人士告诉 36 氪汽车,VLA 路线还在早期,还没经过大量落地实践,正如李想自己所言," 我们其实走的是一个无人区。

随着 " 端到端 " 旧路线技术负责人离职,理想汽车 All in VLA 大模型的态度也更坚决。