【行业动态】十大技术趋势:人工智能高速演进将如何重塑自动驾驶?![]() 来源 | 汽车观察者联盟 ![]() 自动驾驶技术的核心依托人工智能,因此,在分析自动驾驶技术趋势时,需要基于人工智能的发展进行探讨。作为人工智能技术的一项重要应用,自动驾驶不仅体现了汽车智能化的最优表现,还改变了汽车的价值定位。 自2022年OpenAI的ChatGPT横空出世以来,到今年中国深度求索的Deepseek迅速崛起,人工智能技术逐渐渗透至各行各业。汽车的单纯工具价值已经向情感价值转变,这一观念的转变也是新势力车企业所倡导的重要消费理念。 基于以下人工智能发展的四大特征,我们可以深入分析自动驾驶行业的技术趋势。 第一是技术话语权的非对称转移。新技术不再仅由行业巨头引领,而是开始在小团队中涌现。例如,Transformerr架构的理论基础最早是由谷歌发布,但是GPT火爆的背后是创业公司OpenAI。 第二个是超级进化。人工智能的技术迭代和发展速度极快,新技术层出不穷,而产品开发却常常滞后于技术进步。自动驾驶技术经历了从高精度地图方案到轻地图,再到无图方案的转变;同时,从BEV+Transformer感知架构发展到端到端模型的出现,这一过程体现了技术的迅猛演变。 第三个是通用性。人工智能具有很强的多元应用,例如Transformer架构最早是在大语言模型中处理时间序列信息,如今也广泛应用于图像处理领域。 第四个自主性。智能产品具备一定程度的自我优化能力,同时技术的应用迭代具有一定的自主性。 趋势一 自动驾驶的大小脑和本体协同进化 在自动驾驶技术的发展中,大小脑架构及其本体的协同进化正成为一个关键趋势。“大脑”负责复杂的决策和推理,而“小脑”则负责实时感知和快速反应。系统本体不仅涵盖车辆自身的机电控制系统(线控底盘、传感器阵列、计算单元等),更延伸至V2X车路协同网络、数字孪生交通系统等新型基础设施。在感知和决策方面,借鉴具身领域的端到端系统方案,大模型的在感知和决策端实现了多任务的迁移和处理。但是,控制侧的技术和人工智能的结合依然需要深入探索。 02 趋势二 神经网络渲染技术 3D高斯溅射是一种用于辐射场实时渲染的光栅化技术,正在重构自动驾驶系统的环境感知范式。这项源于计算机图形学的光栅化渲染方法,将其引入自动驾驶领域,在建图和仿真领域,展现出巨大的潜力。 高斯溅射的核心原理是通过数百万个微小的、半透明的椭球体(即 “高斯溅射”)来创建和渲染3D场景。每个溅射点包含位置、颜色、大小和透明度等信息。以这些高斯函数作为基本构建块,将场景中的每个点转换为一个具有特定属性的高斯溅射,这些属性包括位置、形状和大小(由协方差决定)、颜色和透明度,从而形成一个连续的辐射场,编码3D场景中每个点的颜色和光密度。深度学习和高斯溅射结合,可以实现自动化的场景分析、参数优化和内容生成,进一步提升高斯溅射的性能和应用范围。 在自动驾驶领域,激光雷达、深度相机等传感器可以更精确地捕捉现实世界的几何信息和纹理信息。这为高斯溅射提供更丰富的输入,实现更精准的三维重建和渲染,更深层就是传统人工智能的图形学和深度学习的结合。 趋势三 数据闭环 特斯拉的影子模式和大模型的火热证明了数据在当前人工智能技术中的重要性。众多车企纷纷从车端到云端加强算力,而算力是数据的硬件支撑,将车辆传感器采集到的数据进行收集、处理与分析,然后将分析结果反馈到自动驾驶算法的训练和优化中,形成一个不断循环、持续优化的过程,以提升自动驾驶系统的性能和安全性。尽管许多企业都在尝试建立数据闭环,但真正做到高效的数据闭环仍然面临困难。 数据闭环中存在多重技术内部问题。首先,数据采集面临数据多样性不足,corner case难以覆盖,数据的质量参差不齐,摄像头在低光照条件下图像质量下降,激光雷达受恶劣天气影响测距精度降低,这些问题源于传感器自身的局限性。其次,数据处理方面计算和存储资源的需求不断增加,而且数据闭环还存在政策合规的外部问题。当大模型技术进入自动驾驶领域之后,数据闭环将将成为第一个问题点,数据不仅是物理世界采集后处理,并且可以利用大模型技术形成新的数据闭环。 例如通过CLIP内容理解、自动标注、加速模型训练、生成高质量训练场景库与仿真场景库等,提升数据处理效率和模型性能;亚马逊云科技基于视觉语言大模型打造的数据闭环工具链,可实现自动标注、自动数据清洗、场景库自动构建、场景自动生成等,减少人工干预,提高整体效率。相比于构建训练一个模型,应用大模型技术提升以往的业务效率更为有效。 04 趋势四 人机协同 在L3级自动驾驶商业化进程中,人机协同会成为汽车行业的新课题。智能产品具有一定的自主性,人机协同是一个动态的过程,而不是静态的固定值。例如在人类驾驶员接管时间的问题中一般会设置10秒,这一标准的制定主要是基于联合国自动驾驶法规R157对L3级自动驾驶自动化驾驶系统(ALKS)的要求。如果驾驶员没有通过停用系统来响应接管请求,则最早应在接管请求开始10秒后开始最小风险操作。 然而,接管时间的设定各企业之间存在差异,通常受产品定位和对安全性的考量等因素影响。例如豪华车型的冗余系统设计会比入门级车型更为全面,因此在极端情况下对系统接管时间的需求也会有所不同。这进一步说明,尽管整个行业都在提倡智能驾驶,智驾系统因各自特点和需求而无法实现统一。 05 趋势五 端到端自动驾驶系统 端到端自动驾驶系统的演进本质上是一场从模块化架构向神经符号化融合的认知革命,端到端自动驾驶在学术理论上已有诸多研究,自2016年英伟达发表利用端到端方法进行车道线识别的论文以来,该方向便吸引了行业内的持续关注。日前,端到端方法再次成为自动驾驶行业的热点。 当前的技术突破则源于Transformer架构与自监督学习的深度融合,使得从多模态传感器输入到车辆运动控制的全局优化成为可能。核心优势体现在三维度跃升:数据维度上,通过构建时空连续体表征(BEV+OccNet+NeRF)实现跨模态特征对齐;算法维度上,基于JAX框架的大规模分布式训练;算力维度上,车载计算平台正经历从固定功能单元向可编程神经引擎的转变。 06 趋势六 数据生成或者合成数据 数据的流通和应用与具体场景紧密相关,特别是在自动驾驶领域。从特斯拉的FSD入华历程及其表现中可以看出数据对于模型泛化的重要性。另一个值得关注的例子是Deepseek。根据其发布的技术报告可以看到,一个关键技术点就是使用了数据生成。 随着自动驾驶的深入,数据采集的成本将逐步增加,主要体现在两个方面,一是由于法律法规的细化,采集自动驾驶相关数据的成本将会上升;二是极端场景的采集将变得更加困难。虽然极端场景并不缺乏,但获取这些场景的数据的成本正在不断增加。随着系统处理能力的增强,理论上极端场景的需求相对减少。在自动驾驶领域,数据生成主要可以通过以下两种方式实现: 第一种搭建虚拟场景。利用计算机模拟技术,创建虚拟的驾驶场景。通过设定不同的道路类型、交通流量、天气条件、光照情况等参数,生成各种可能出现的驾驶场景。例如,使用专业的自动驾驶模拟软件(CARLA、AirSim等),用户可以自定义场景的各种元素,然后让虚拟车辆在模拟环境中行驶,收集传感器数据和车辆状态信息。此方法的优势在于可以灵活控制场景参数,生成大量具有特定特征的数据集,能够覆盖各种极端情况和罕见场景,弥补真实场景采集数据的不足。而且成本相对较低,生成速度快,可以快速迭代和优化场景。但模拟数据与真实数据可能存在一定的差异,需要进行数据增强和校准等处理,以提高模拟数据与真实数据的相似性。 第二种合成数据。该方法结合计算机图形学与机器学习技术,将不同来源的数据进行合成。例如,将真实场景中的背景图像与计算机生成的车辆、行人等目标物体进行融合,或者利用生成对抗网络等深度学习模型,根据已有的数据分布生成新的合成数据。以基于对抗网络模型的合成数据生成为例,通过训练一个生成器网络和一个判别器网络,让生成器学习如何生成与真实数据相似的合成数据,同时让判别器学习如何区分真实数据和合成数据,通过不断的对抗训练,提高合成数据的质量。由于依赖于模型生成,合成数据的质量和真实性取决于生成模型的准确性及训练数据的质量,可能会存在细节上的不准确或数据偏差。 07 趋势七 世界模型 世界模型通过构建对外部世界的模型,使智能系统能够完成对世界内部的表征,在复杂多变的物理环境中实现更为精准的决策和预测。理论上世界模型具备更高级别的认知、适应和决策能力,所以世界模型可以推动自动驾驶的深度应用,也就是世界模型可以突破以往的智能系统的任务边界,重构人类和机器的交互方式。 从谷歌(Genie 2模型)和Meta(世界模型NWM)的这些世界模型实例中,可以看出世界模型在自动驾驶领域的两个作用:首先,生成可交互的虚拟3D环境,自动驾驶训练和仿真的数据源之一;其次导航世界模型,能够直接感知周围环境,模拟交通参与者的逻辑和预测环境变化,输出车辆的控制指令。相较于端到端系统依赖于感知任务的监督,如检测、跟踪和地图分割,世界模型是一种自监督的方法,提高数据的可扩展性。 尽管世界模型在人工智能行业的潜力备受期待,但其性能泛化尚未得到充分验证,市场的高期待也可能导致泡沫的出现。在自动驾驶领域,特斯拉发布的环境感知和空间占据状态预测的占用网络(Occupancy Networks)和Waymo的通过模仿学习规划路径的ChauffeurNet模型,两者都是世界模型在自动驾驶领域的一种应用。为什么这两个模型可以视为世界模型的演化?因为是占用网络的3D 数据保留结构一致性、详细的几何信息和精确的空间关系,使预测 3D 场景演化成自动驾驶的世界模型。所以,世界模型并不是一个固定的模型,而是一种多维空间的一致性和动态预测,其必然需要一个演化或者变体的过程。 08 趋势八 视觉感知 在自动驾驶领域,感知的建设既具挑战性又蕴含机遇。一方面,众多开源模型、算力提升以及数据丰富化使得感知模型的搭建变得相对容易,传感器类型的增多和环境感知精度的提高同样为感知技术的进步提供了助力。另一方面,感知模块依旧是自动驾驶系统中问题最多的部分。特别是在基于Transformer的多任务感知架构中,感知模型的体量变大,导致其可解释性降低。可以说,感知作为整个自动驾驶系统的输入,其效率至关重要,因此容不得任何信息传递的低效。 随着自然语言处理领域技术的迁移和预训练大模型的引入,自动驾驶的感知能力正在不断提升。但是在感知之外的视觉感知仍然面临众多的挑战和待解决的难点。首先,图像的基本语义单元很难定义,也就是图像所表达的信息很丰富;其次图像的采样结果与分布特性强相关,例如,不同的光照、不同的天气情况下的像素都是不一样;最后,视觉感知的颗粒度没有统一,对感知目标的定义并不是一致。最典型的例子,以往视觉可以识别交通参与者中规则的人和车,现在可以识别到异形物体,以往可以识别到人,但是无法识别到手势,现在可以识别手势甚至面部表情。 面对当前的局面,自动驾驶领域亟需更高效的视觉感知数据微调算法和视觉建模技术的创新。例如,通过在大规模数据集上的预训练以及高效的神经网络架构设计,可以有效推动视觉感知的进一步发展。 09 趋势九 强化学习 近期,Deepseek的进展再次引发了行业对强化学习(RL)技术的关注。今年的图灵奖授予了强化学习的先驱Andrew Barto和Richard Sutton,他们的贡献被评价为引领基础AI技术开发的研究人员。上一次强化学习在公众视野中还是2016年和2017年机器狗大战围棋高手,而如今,OpenAI的o1模型和Deepseek的R1模型又一次将强化学习推向了新的高度。 从算法原理来看,强化学习算法的决策依据是基于奖励和惩罚机制,这使得决策过程往往难以解释和理解。此外,强化学习算法的稳定收敛性也存在挑战,稳定性不足的训练过程可能导致自动驾驶车辆的驾驶行为出现波动,从而影响行驶的安全性与舒适性。展望未来,自动驾驶领域无疑将成为深度强化学习的重要研究与应用方向。 10 趋势十 多模态大模型 在大模型领域,预训练的语言模型可视为“快思考”,而经过后续训练(post-training)和推理扩展(inference scaling),便形成了推理模型,如Deepseek-R1和OpenAI的O1模型。 推理模型与多模态模型的结合,能够推动多种应用场景的发展,包括具身智能、自动驾驶、智能座舱,甚至构建世界模型。沿着这条链路进一步思考,多模态大模型的构建离不开两个基础组成部分:一是多模态理解模型,二是多模态生成模型。只有将这两者结合,才能形成一个功能全面的多模态模型。多模态理解模型通常是通过对预训练语言模型的扩展而来,而多模态生成模型的经典代表则是Diffusion Transformer模型。在自动驾驶技术的发展中,多模态融合的思想正在逐渐成为共识,并为提升系统的智能化和交互性提供了新的视角。 |