开炒VLA，“端到端”过气了？

pepsi 汽车 2024-12-20 69

2024年，智驾领域最热的词，就是“端到端”。甚至，到了不聊端到端都没法出门的程度。

不过，在这个光速迭代的智能电动化时代，“端到端”会被迭代替掉，也是可想而知的。于是，VLM、VLA、世界模型……概念涌现，被誉为“端到端2.0”的VLA（Vision-Language-Action Model，视觉-语言-动作模型）闪亮登场。

在我之前的文章《奇瑞的智驾水平，到哪步了？》中，曾经提到，根据规划，奇瑞的VLA大概2026年会上。也就是，2026年完成VLA大模型的构建，2027年要达到具身智能（VLA是具身智能领域的新范式）的程度。

主机厂深度觉醒，但是，也要到2026年完成模型构建。所以说，开炒的VLA概念有那么快落地吗？

概念先行

智驾概念不断涌现，也代表各玩家的技术路线和投入侧重。

实际上，“端到端”刚成为新的技术范式，甚至大量公司还没来得及完成研发模式切换，端到端就又进化了。而“端到端”的最新进化方向是，深度融入多模态大模型，进入VLA模式。

就像年中理想汽车发布的名为“端到端+VLM”的双系统架构，其中，端到端跑在一颗Orin X芯片上，VLM（视觉语言模型）跑在另一颗Orin X上。

随后不久，元戎启行CEO周光表示，预计明年推出VLA。其智驾方案将搭载在魏牌蓝山上，仅需一颗Orin X芯片。

11月底，商汤绝影举办了自己的第一个AI DAY，亮出名为“开悟”的世界模型，可生成仿真数据，与量产实车采集的真实数据结合，共同重建物理世界。商汤绝影CTO肖枫还直接说：“‘地大华魔’头部格局，已经是过去式了。”

事实上，VLA模型最早见于机器人行业。2023年7月28日，谷歌DeepMind推出了全球首个控制机器人的视觉语言动作（VLA）模型RT-2。其后，这个模型概念快速扩散到智驾领域。

今年10月底，谷歌旗下自动驾驶公司Waymo推出基于端到端的自动驾驶多模态模型EMMA。按照国内行业人士的理解，这就是一个VLA模型架构。

那么，VLA真的就会这么快来到吗？说实话，我是不信的。就像全固态电池，还有智能底盘，行业內的“概念先行”歪风，在大模型领域也是如此。

实际上，商汤绝影CEO王晓刚不是也说，“端到端的发展还是要经历一个过程，包括基础设施、数据积累、数据仿真。要真正发挥它的威力，这不是一蹴而就的。”

理智地看下，在端到端才进入规模推广之际，所谓端到端2.0的VLA方案立刻想落地面临很现实的挑战。

一方面，现阶段车端芯片硬件还不足以支撑多模态大模型的部署落地。比如理想的端到端+VLM模型，对车端芯片硬件有相当高要求，目前是2颗英伟达OrinX芯片，算力达到508Tops。

不过，有行业人士表示，现阶段车端的算力很难支撑VLA模型部署，需要像英伟达的最新一代车载AI芯片Thor的算力来支撑。再者，单片AI算力1000Tops的Thor大概率会延期发布，加上英伟达芯片的量产时间与成本挑战，对车企而言是个大问题。

还有个成本问题。比如，如果单颗Orin X可以搞定端到端，那么，搭载两颗Orin X芯片的车，包括蔚来搭载四颗Orin X芯片的车，冗余是不是太多，算力是否太浪费？

当然，车企也会考虑用一些国内的自研大算力芯片。不过，这些都还是未知数。

除了算力，更具挑战的是，如何将端到端与多模态大模型的数据与信息作深度融合。这考验着车企智驾团队的模型框架定义能力、模型快速迭代能力。只是，VLA技术路线的骤然升级与竞赛变奏，为还没发力端到端的玩家设置了更高门槛，看起来更加高不可攀。

车端or云端？

实际上，国内现在还在“卷”从“两段式”的端到端到“一段式”的端到端，VLA哪能那么快呢？

按照博世智能驾控中国区总裁吴永桥的判断，到明年，在国内应该只有1-2家企业能够实现一段式端到端。

当然，从两段式端到端逐步过渡到一段式端到端，最终实现世界模型的应用，这一路线图正逐渐成为业内共识。这是一条车端到云端的路。

简单来说，以端到端和VLA为代表的技术路线，侧重车端，以世界模型为代表的技术路线，侧重云端。当然，云端的争夺也非常激烈，甚至有说法是，“未来竞争的核心在云端。”

而随着下一代端到端到来，算力需求更大，智驾话语权的争夺也更激烈。车端和云端，当下与未来，又如何权衡？这也考验着车企的智慧。

实际上，云端的军备竞赛早就非常激烈。比如，今年7月理想汽车公布云端算力2.4 EFLOPS，最新数字是5.39 EFLOPS。小鹏汽车当前云端算力2.3 EFLOPS，预计明年达到10 EFLOPS。而去年9月问界M7改款发布会时，余承东披露华为云端算力为1.8 EFLOPS。最新数字已经到了7.5 EFLOPS。

从智驾竞争的终局来看，小鹏汽车认为，布局云端大模型才是制胜关键。而且，其选择的云端大模型路线和Open AI所选择的路线不谋而合。

根据小鹏的架构，云端大模型通过知识蒸馏，形成车端的端到端大模型。此外，云端大模型还被用于世界模型和数据的清洗和挖掘。在云端大模型的加持下，小鹏汽车的智驾参数量会比传统车端大模型高80倍，带来8倍有效视觉感知信息量。

这也是为什么，小鹏汽车的一套智驾软件标配全车系，涵盖SUV、轿车、轿跑、MPV等多车型。

不仅是小鹏汽车，商汤绝影的“开悟”世界模型，基于商汤20 EFLOPS的云端算力，将能够用“实车道路采集+世界模型生成”双轮驱动，实现Corner Case数据生成。

蔚来在今年的NIO IN 2024创新科技日上，也发布了其智能驾驶世界模型NWM。该模型是一个具有全量理解数据、长时序推演和决策能力的智能驾驶世界模型。它能够在100毫秒内推演出216种可能发生的场景，并寻找到最优决策。

而对于加快云端算力储备同时发力车端模型的理想来说，VLA、世界模型以及类似特斯拉的做法等几个方向都在探索，并通过扩大端到端模型的体量，训练出VLM的早期认知能力。

值得一提的是，数据量也成为下一代端到端的竞争核心。元戎启行CEO周光认为，端到端1.0交付达到万台规模级就有挺好的效果。而真正做VLA，10万台可能只是一个入门券，要看谁能更快达到10万台交付规模。

当然，到底是从云端降维到车端，还是车端升维到云端，目前没有统一的答案，各家众说纷纭。只是，大家都不能回避的是，对算力的要求越来越高，成本越来越高。能不能留在牌桌上，是最大的问题。

这不，特斯拉的FSD V13版本已经出来了，马斯克说能力提升500~1000%。那么，大家只有继续卷咯。

标签：企业

本文地址： http://huotuhuo.com/post/19730.html