【智駕中的大模型-1】自動駕駛場景中的大模型
1. 前言
我們知道,大模型現(xiàn)在很火爆,尤其是 deepseek 風(fēng)靡全球后,大模型毫無疑問成為為中國新質(zhì)生產(chǎn)力的代表。百度創(chuàng)始人李彥宏也說:“2025 年可能會成為 AI 智能體爆發(fā)的元年”。
隨著科技的飛速發(fā)展,大模型的影響力日益凸顯。它不僅在數(shù)據(jù)處理和分析方面展現(xiàn)出了強大的能力,還為各個領(lǐng)域帶來了前所未有的創(chuàng)新機(jī)遇。在眾多應(yīng)用場景中,智能駕駛無疑是備受矚目的一個領(lǐng)域。
智能駕駛作為未來交通的重要發(fā)展方向,具有巨大的潛力和市場需求。大模型的出現(xiàn),為智能駕駛的發(fā)展注入了強大的動力。它可以通過對大量駕駛數(shù)據(jù)的學(xué)習(xí)和分析,實現(xiàn)更加精準(zhǔn)的環(huán)境感知、路徑規(guī)劃和決策控制。例如,大模型可以實時識別道路上的障礙物、交通標(biāo)志和其他車輛,預(yù)測潛在的危險情況,并及時做出相應(yīng)的駕駛決策,從而提高駕駛的安全性和舒適性。
在這樣的一種大趨勢下,筆者將針對智能駕駛場景,講一講大模型的應(yīng)用前景以及存在的瓶頸?。?!
2.自動駕駛中的大模型
自動駕駛領(lǐng)域的大模型主要涵蓋 感知(Perception)、決策(Decision-making)和控制(Control) 等多個方面,那么可以應(yīng)用于自動駕駛中的大模型可以分為;
2.1 感知層(Perception)
感知層主要依賴 計算機(jī)視覺(CV)和多模態(tài)大模型(MMML),處理攝像頭、雷達(dá)、激光雷達(dá)等傳感器數(shù)據(jù)。
2.1.1 計算機(jī)視覺模型
1.Tesla Vision(特斯拉)
Tesla Vision 是 特斯拉(Tesla) 開發(fā)的一套基于純視覺(Camera-only)的自動駕駛感知系統(tǒng),完全放棄了激光雷達(dá)(LiDAR)和毫米波雷達(dá)(Radar),僅依靠攝像頭和 AI 算法進(jìn)行環(huán)境感知。該系統(tǒng)用于 Tesla Autopilot 和 FSD(Full Self-Driving),目前在 FSD V12 版本中已經(jīng)實現(xiàn)端到端 Transformer 訓(xùn)練。
Tesla Vision 具有以下核心特點:
純視覺(Camera-only)感知:自 2021 年起,特斯拉宣布移除毫米波雷達(dá),完全依靠攝像頭。8 個攝像頭覆蓋 360° 視角,包括前、后、側(cè)方攝像頭。基于 Transformer 的端到端 AI:Tesla Vision 早期使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行目標(biāo)檢測、分割和軌跡預(yù)測。 FSD V12 采用 端到端 Transformer 模型,用 BEV(Bird's Eye View)+ 視頻 Transformer 進(jìn)行感知。利用神經(jīng)網(wǎng)絡(luò)自動標(biāo)注駕駛數(shù)據(jù),大規(guī)模訓(xùn)練 AI 駕駛模型。BEVFormer / Occupancy Network 將 2D 視覺數(shù)據(jù)轉(zhuǎn)化為 3D 環(huán)境模型,提高自動駕駛感知能力。端到端學(xué)習(xí)(End-to-End Learning):早期 FSD 采用模塊化架構(gòu)(Perception → Planning → Control),F(xiàn)SD V12 采用端到端神經(jīng)網(wǎng)絡(luò),直接學(xué)習(xí)駕駛行為,無需手工編寫規(guī)則。
Tesla Vision 的工作原理:
感知(Perception):通過 8 個攝像頭輸入視頻流。采用 Transformer 處理時序數(shù)據(jù),形成 BEV(俯視圖)Occupancy Network 預(yù)測周圍動態(tài)環(huán)境(車輛、行人、紅綠燈等)。規(guī)劃(Planning):FSD V12 直接通過 Transformer 計算駕駛路徑,無需手工編碼。AI 學(xué)習(xí)人類駕駛行為,進(jìn)行轉(zhuǎn)向、加速、剎車等決策??刂疲–ontrol):車輛根據(jù) AI 計算的軌跡執(zhí)行駕駛動作。特斯拉自研 AI 芯片 Dojo 提供超大規(guī)模計算能力。2.多模態(tài)大模型
在自動駕駛領(lǐng)域,多模態(tài)大模型(Multimodal Large Models, MML)能夠融合多個傳感器數(shù)據(jù)(如攝像頭、激光雷達(dá)、毫米波雷達(dá)、IMU 等)來提升感知、決策和控制能力。以下是當(dāng)前主流的多模態(tài)大模型:
BEVFusion
BEVFusion 融合激光雷達(dá) + 攝像頭數(shù)據(jù),提升 3D 目標(biāo)檢測能力。嚴(yán)格來說,BEVFusion 本身并不算一個典型的大模型(LLM 級別的超大參數(shù)模型),但它可以被視為自動駕駛中的大模型趨勢之一,特別是在感知層的多模態(tài)融合方向。目前主流的 BEVFusion 主要用于 3D 目標(biāo)檢測,并非大語言模型(LLM)那樣的百億、千億級參數(shù)模型。例如,Waymo、Tesla 的 BEV 模型參數(shù)量遠(yuǎn)低于 GPT-4 級別的 AI 大模型。而且任務(wù)范圍局限于感知,主要用于將 2D 視覺(RGB 圖像)和 3D 激光雷達(dá)(LiDAR 點云)融合,輸出鳥瞰圖(BEV)用于目標(biāo)檢測、占用網(wǎng)絡(luò)等。不直接涉及自動駕駛的決策和控制,不像 Tesla FSD V12 那樣實現(xiàn)端到端駕駛。
雖然 BEVFusion 不是超大參數(shù)模型,但它具備大模型的一些核心特征:
多模態(tài)(Multimodal)融合:融合 RGB 視覺 + LiDAR + Radar,類似 GPT-4V(圖像+文本)這種多模態(tài) AI 方向。Transformer 結(jié)構(gòu):新一代 BEVFusion 開始采用 BEVFormer(Transformer 結(jié)構(gòu)),可擴(kuò)展成更大規(guī)模的計算模型。大規(guī)模數(shù)據(jù)驅(qū)動:需要超大規(guī)模的數(shù)據(jù)集(如 Waymo Open Dataset、Tesla 數(shù)據(jù)庫)進(jìn)行訓(xùn)練,符合大模型訓(xùn)練模式。
Segment Anything Model (SAM)(Meta)+ DINO(自監(jiān)督學(xué)習(xí))
SAM 是由 Meta AI 發(fā)布的一種通用圖像分割模型,可以對任何圖像中的任何物體進(jìn)行分割,而無需特定的數(shù)據(jù)集進(jìn)行微調(diào)。DINO(基于 Vision Transformer 的自監(jiān)督學(xué)習(xí)方法) 由 Facebook AI(現(xiàn) Meta AI)提出,能夠在無監(jiān)督情況下學(xué)習(xí)圖像表示,廣泛用于物體檢測、跟蹤和語義分割。SAM 和 DINO 結(jié)合后,可以極大提升自動駕駛中的 感知精度、泛化能力和數(shù)據(jù)效率。其結(jié)合方式可以總結(jié)為:
DINO 作為自監(jiān)督學(xué)習(xí)特征提取器,提供高質(zhì)量的視覺表示。SAM 作為通用分割工具,利用 DINO 提供的特征進(jìn)行高精度分割。結(jié)合 BEVFusion、Occupancy Network,增強 3D 語義感知。
其在自動駕駛中的應(yīng)用可以是:
無監(jiān)督 3D 語義分割:DINO 預(yù)訓(xùn)練提取高質(zhì)量視覺特征,SAM 進(jìn)行目標(biāo)分割,提高語義理解能力。BEV 視角感知(鳥瞰圖增強):DINO 適應(yīng)跨尺度檢測,SAM 用于 BEV 視角的動態(tài)目標(biāo)分割。動態(tài)物體跟蹤:結(jié)合 SAM 的強大分割能力,可更精準(zhǔn)跟蹤行人、騎行者等。2.2 規(guī)劃與決策(Decision-making & Planning)
這一層面涉及強化學(xué)習(xí)、端到端 Transformer 以及大語言模型(LLM)用于自動駕駛策略決策
2.2.1 強化學(xué)習(xí)與決策模型
自動駕駛的決策層需要處理復(fù)雜的動態(tài)環(huán)境,包括車輛行駛策略、避障、變道、紅綠燈響應(yīng)等。強化學(xué)習(xí)(RL, Reinforcement Learning)和決策大模型(LLM, Large Decision Models)已成為關(guān)鍵技術(shù),能夠?qū)W習(xí)人類駕駛員的策略并在不同交通場景下進(jìn)行智能決策。其基本框架為馬爾可夫決策過程(MDP),主要的強化學(xué)習(xí)方法有:
其應(yīng)用實例有:
Waymo & Tesla:采用 DDPG/PPO 進(jìn)行端到端駕駛策略優(yōu)化。Uber ATG:使用 DQN 進(jìn)行交通信號識別和決策。2.2.2 端到端 Transformer
端到端(End-to-End, E2E)Transformer 在自動駕駛中融合感知、預(yù)測、規(guī)劃,實現(xiàn)端到端學(xué)習(xí),擺脫傳統(tǒng)模塊化架構(gòu)的局限。Tesla FSD V12 采用 Vision Transformer(ViT)+ GPT 進(jìn)行端到端自動駕駛,而 GriT(Grid Transformer) 則專注于端到端路徑規(guī)劃,提供更高效的軌跡優(yōu)化。
1.Vision Transformer (ViT) + GPT
Tesla FSD V12 采用 Vision Transformer (ViT) + GPT 結(jié)構(gòu),實現(xiàn)端到端駕駛控制,直接從攝像頭輸入生成方向盤轉(zhuǎn)角、油門、剎車等控制信號。詳細(xì)見前文。
2.GriT( Grid Transformer)
GriT(Grid Transformer) 是一種基于 Transformer 的路徑規(guī)劃模型,能夠在復(fù)雜環(huán)境下進(jìn)行高效軌跡規(guī)劃。其核心思想為:
采用 柵格(Grid-based)方法 進(jìn)行端到端軌跡預(yù)測。適用于 動態(tài)環(huán)境,如城市道路、高速公路、交叉路口等。結(jié)合 Transformer 結(jié)構(gòu)進(jìn)行全局路徑優(yōu)化,避免局部最優(yōu)問題。
GriT 主要結(jié)構(gòu)為:
輸入(多模態(tài)信息)
攝像頭(前視 & 側(cè)視)、LiDAR 點云(可選)、HD 地圖信息。目標(biāo)檢測(行人、車輛、紅綠燈)。車輛當(dāng)前狀態(tài)(速度、加速度、方向等)。Transformer 編碼(Grid-based Representation)采用 柵格化(Grid-based Representation),將環(huán)境信息編碼為網(wǎng)格結(jié)構(gòu)。使用 Self-Attention 計算,學(xué)習(xí)全局路徑規(guī)劃策略。
軌跡預(yù)測 & 規(guī)劃
通過 Transformer 計算最優(yōu)駕駛軌跡。適應(yīng)不同交通狀況(紅綠燈、變道、避障等)。
GriT 在自動駕駛中的應(yīng)用
復(fù)雜路口決策
GriT 能夠預(yù)測多個可能路徑,并選擇最優(yōu)軌跡,避免碰撞。
動態(tài)避障
在高速公路、城市駕駛場景下,實時避讓前方障礙物或慢速車輛。
路徑全局優(yōu)化
傳統(tǒng)路徑規(guī)劃方法(如 A*、Dijkstra)易陷入局部最優(yōu),而 GriT 通過 Transformer 提高全局規(guī)劃能力。
發(fā)展趨勢
ViT + GPT 端到端感知 & 規(guī)劃進(jìn)一步優(yōu)化
結(jié)合更多傳感器數(shù)據(jù)(如雷達(dá))提升安全性。提高自監(jiān)督學(xué)習(xí)能力,減少數(shù)據(jù)標(biāo)注需求。
GriT 結(jié)合 BEV,提升軌跡規(guī)劃能力
未來 GriT 可能與 BEV 結(jié)合,提高 3D 規(guī)劃能力。
提高對動態(tài)環(huán)境的適應(yīng)性,優(yōu)化駕駛策略。
多智能體 Transformer 強化學(xué)習(xí)
未來可訓(xùn)練多車輛協(xié)同駕駛,提高車隊自動駕駛能力。
結(jié)合 RL(強化學(xué)習(xí))優(yōu)化自動駕駛策略。
2.3 控制層(Control)
控制層是自動駕駛的核心模塊之一,負(fù)責(zé)將感知和規(guī)劃結(jié)果轉(zhuǎn)換為具體的車輛控制指令(方向盤、油門、剎車)。近年來,大模型(如 Transformer、RL-based Policy Network)正在革新自動駕駛控制層,使其更智能、更平滑、更適應(yīng)復(fù)雜環(huán)境。
DeepMind MuZero:無模型強化學(xué)習(xí)框架,可用于動態(tài)駕駛控制優(yōu)化。Nvidia Drive Orin / Thor:專用 AI 芯片結(jié)合 Transformer 網(wǎng)絡(luò),用于高精度自動駕駛控制。2.4 端到端自動駕駛大模型
部分大模型實現(xiàn)了從感知到控制的端到端學(xué)習(xí):
OpenPilot(Comma.ai):開源自動駕駛系統(tǒng),基于 Transformer 訓(xùn)練的行為克隆模型。DriveGPT(類似 AutoGPT 的自動駕駛 LLM):將 LLM 應(yīng)用于駕駛策略。
目前,特斯拉 FSD V12 是最先進(jìn)的端到端 Transformer 自動駕駛大模型。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。