在前一篇文章《开炒VLA,“端到端”过气了?》里,我们了解到一个新的概念“世界模型”。按照目前行业的理解,“端到端”的尽头,就是世界模型。
因为,自动驾驶光有端到端还不够。端到端的“黑盒子”特性,导致上限提高的同时拉低下限,存在“跷跷板效应”。无穷无尽的Corner Case,写不完的代码。就像我那篇文章说的,《“端到端”求L4,无异缘木求鱼》。
那么,如何解决这些问题?世界模型闪亮登场了。
开始喽
粗略统计一下,目前已经大约有超过10个车企和自动驾驶公司提出了世界模型。这里面,包括特斯拉、英伟达、蔚小理华、地绝元魔,以及一些内部在推进此事的企业。
那么,我们要问,什么是世界模型?它是如何生成的?又是如何运行的?
追溯一下,“World Models”(世界模型)最早出现在机器学习领域。
2018年,机器学习顶会NeurIPS收录的《Recurrent World Models Facilitate Policy Evolution》论文,以认知科学中人脑Mental Model来类比世界模型,认为mental model参与了人类的认知、推理、决策过程。其中,最核心的能力——反事实推理(Counterfactual reasoning),是一种人类天然具备的能力。
另外,PLAM掌上电脑创始人杰夫·霍金斯的《千脑智能》中,也介绍了人工智能领域中非常重要的“世界模型”概念。
时间到了2024年2月16日,著名的Open AI公司发布了震惊全世界的“文生视频”大模型Sora,它可以根据文本自动生成一段60秒的视频。这成为世界模型的一个具象体现。
而在人工智能领域,包括李飞飞的World Labs,谷歌DeepMind等企业都发布了世界模型。Yann LeCun的Mate FAIR团队还发布了导航世界模型,根据前一秒的导航信息实时生成下一秒的轨迹。
如今,业内的共识是,一旦这个技术成熟,自动驾驶将迎来真正的爆发。
虽然,国内汽车行业现在还在“卷”从“两段式”的端到端到“一段式”的端到端,但是,按照博世智能驾控中国区总裁吴永桥的说法,从两段式端到端逐步过渡到一段式端到端,最终实现世界模型的应用,这一路线图正逐渐成为业内共识。这是一条车端到云端的路。
而且,梳理一下自动驾驶技术的发展路线,就会发现一个非常有意思的事情。
所谓“功夫在诗外”,这几年所有对自动驾驶发展产生推动的技术都不源于自动驾驶,而是人工智能。这里面,从BEV+Transformer,占用网络OCC,到端到端,世界模型。就像那句话,“自动驾驶本质上是人工智能的一个具身智能体现。”
世界模型仿佛打开了一个全新的窗口和世界,这里面包括探路者特斯拉。
2023年,特斯拉自动驾驶负责人在CVPR上介绍了“通用世界模型”。该模型可以通过过往的视频片段和行动提示,生成“可能的未来”全新视频。
Wayve也在2023 年发布了GAIA-1模型,它可以依靠视频、文本和动作的输入生成逼真的视频,能够生成分钟级的视频以及多种合理的未来场景,帮助自动驾驶模型的训练和仿真。
2024年GTC大会上,英伟达也展示了世界模型领域的新进展:The Next Wave of AI: Physical AI。
而国内车企里面,蔚来比较领先。2023年NIO Day上,蔚来公布其正在自研世界模型。一年后7月27日的科技日上,蔚来智驾负责人任少卿发布中国首个智能驾驶世界模型NWM,释放出更多技术细节。
NWM模型是一个具有全量理解数据、长时序推演和决策能力的智能驾驶世界模型。它能够在100毫秒内推演出216种可能发生的场景,并寻找到最优决策。
11月底,商汤绝影举办了自己的第一个AI DAY,亮出名为“开悟”的世界模型,可生成仿真数据,与量产实车采集的真实数据结合,共同重建物理世界。商汤绝影CTO肖枫还直接说:“‘地大华魔’头部格局,已经是过去式了。”
世界模型有这么厉害?
世界模型怎么做?
小马智行CTO楼天城给了世界模型极高的评价,“世界模型是最重要的事情,没有之一。”
那么,自动驾驶领域,世界模型如何发挥作用?按照地平线的解释,世界模型的作用有两个:
一是通过生成式大模型生成带有预测性质的视频数据,实现Corner Case多样化训练;
二是采用强化学习的方法认识复杂驾驶环境,从视频输出驾驶决策。
而构建世界模型的办法也有两个:一个是凭空想象,“无中生有”;另一个,是根据现有信息完善信息,比如输入文本、图片、视频,生成更多更丰富的视频。
作为自动驾驶的“大杀招”,世界模型解决了两大难题,一个是3D重建的高成本、低效率,另一个就是仿真无法“还原”真实数据的问题。可以说,世界模型包含了仿真的部分内容,但是又完全高于仿真。
这也产生了一个疑问,世界模型是应该凌驾于真实数据之上,还是仅仅作为真实数据的补充?
小马智行CTO楼天城认为,依靠现有的真实数据只能让智驾系统无限接近人,只有世界模型数据才能构建出更复杂的世界,最终让训练出来的系统超越人。换句话说,就是“自动驾驶的安全必须高于人类才有意义”。
所以,必须要有高于人类驾驶行为的世界模型数据训练出来的系统,才能优于人类。按照这个表述,世界模型应该凌驾于真实数据之上。
不过,这样一来,世界模型好坏的评估就很难有个量化的准确办法。只能大致看世界模型的几项能力:准确性,多样性,可控性和泛化能力。
目前的现状,是没有标准解,八仙过海、各显神通。
比如,地平线提出了世界模型的两个长远价值:一是更准确的世界理解,帮助减少智驾系统的代码量、延迟、网络负载、错误率等。二是泛化能力,世界模型可以形成对复杂驾驶环境的通用理解,而非对输入的重复依赖。
按照地平线的实践,其提出的“交互式博弈”,核心在于通过生成数据驱动实现模拟学习和强化学习。为了避免机器对数据的重复模仿,它必须要学会主动理解数据。这时候世界模型就承担了“系统教练”的角色,指导系统到底该怎么开。
而商汤绝影的“开悟”世界模型,基于商汤20 EFLOPS的云端算力,可以做到“(视频生成)时间最长为150秒、分辨率可达1080P、视角可以实现11V”。也即是,通过“实车道路采集+世界模型生成”双轮驱动,实现Corner Case数据生成。
商汤绝影认为这个难度很大,行业普遍都是生成1V或6V视角的视频,开悟直接干到11V,而且同时生成的视角画面越多,要保持时空一致性就更难,还要克服鱼眼视角的畸变。
至于特斯拉和元戎启行的思路,则是用一套系统覆盖两种商业模型,辅助驾驶和Robotaxi。然后用数据训练的方式不断提升系统的能力上限,这种逻辑下世界模型更像是现实世界数据的补充。
按照圆周智行的说法,目前的一个行业共识,是自动驾驶实现的一个大前提不仅仅是像人,而是要超越人。因之,真实世界的数据只能是无限接近人,而要超越人,世界模型是目前通往自动驾驶的唯一解。
那么,用“造数据”的方式来创建一个“美丽新世界”,这个“唯一解”你同意吗?
标签: 企业