相較于端到端,VLA給智駕帶來了哪些改變?
一直以來,自動駕駛都是智能電動汽車市場競爭最為激烈的戰(zhàn)線,發(fā)展最為迅速的賽道。萬事萬物皆有因果,自動駕駛這么火,資本傾情投入,消費(fèi)者萬眾矚目,主要是因?yàn)?a class="contentlabel" href="http://www.2s4d.com/news/listbylabel/label/自動駕駛">自動駕駛這項(xiàng)產(chǎn)品或服務(wù)能夠創(chuàng)造巨大的用戶價值。
說起來,自動駕駛系統(tǒng)的價值與自動駕駛等級密切相關(guān),但是,在車企們看似無意、實(shí)則或許真無意的宣傳下,樸素的人民群眾往往把輔助駕駛系統(tǒng)當(dāng)成自動駕駛系統(tǒng)來用,很少去研究不同自動駕駛等級之間的界限,以至于近幾年經(jīng)常出現(xiàn)因誤用智駕系統(tǒng)導(dǎo)致的事故。
有的事故像鴻毛一般,消費(fèi)者在事故之后還能好整以暇地發(fā)朋友圈,有的事故人命關(guān)天,或許到生命的最后一刻,當(dāng)事人把那些開車睡覺被象征性罰款的高管罵了100遍才戀戀不舍地離開了人間。沒辦法,總會有無知的消費(fèi)者不知道組合輔助駕駛和高等級自動駕駛的區(qū)別,不自覺地對它們抱持著同樣的期待。
對于車企而言,唯有不斷通過技術(shù)的進(jìn)步,盡最大努力提升系統(tǒng)在各種場景下的表現(xiàn),才不至于被突發(fā)的事故影響了銷量表現(xiàn)。在卷了一年的端到端之后,各大車企和智駕方案供應(yīng)商齊刷刷地轉(zhuǎn)向VLA方案,期待著VLA能夠?qū)崿F(xiàn)驚天一躍,幫助系統(tǒng)邁進(jìn)到真的可以讓用戶信賴的L3。
在這樣的背景下,有必要探討的是,VLA相較于端到端到底有哪些優(yōu)點(diǎn),以至于車企把端到端這個曾經(jīng)的小甜甜冷落在了一邊?以及,各大頭部企業(yè)的VLA是長著同樣的臉盤,還是有著不一樣的路線?
VLA與端到端
6月17日,特斯拉自動駕駛前總監(jiān)Andrej Karpathy在YC AI創(chuàng)業(yè)訓(xùn)練營上面發(fā)表了主題為《AI時代的軟件》的演講。在2017年提出軟件2.0的概念之后,Andrej Karpathy再一次提出了軟件3.0的概念,總結(jié)了近年來軟件形式的重大轉(zhuǎn)變。軟件1.0的開發(fā)范式是編寫代碼,主體是code,軟件2.0的開發(fā)范式是設(shè)計專用神經(jīng)網(wǎng)絡(luò),主體是神經(jīng)網(wǎng)絡(luò)權(quán)重weight,軟件3.0的開發(fā)范式是給出提示詞,主體是作為操作系統(tǒng)的大語言模型及其交互接口。
圖片來源:Andrej Karpathy
借用這種代際劃分來區(qū)分VLA和常規(guī)的端到端方案,很顯然,端到端是軟件2.0時代的產(chǎn)物,VLA是軟件3.0時代的成果。當(dāng)然,完全照搬也是不妥,畢竟,Andrej Karpathy的本意是講軟件開發(fā)方式上的變革。不過,大語言模型的問世是劃分軟件2.0時代和軟件3.0時代的分界線,同樣類比過來,常規(guī)的端到端方案是面向自動駕駛的專用小模型,而VLA引入了具備通用能力的大語言模型,核心區(qū)別同樣在于大語言模型。除了專用和通用的分別,還可以認(rèn)為傳統(tǒng)端到端方案是端到端形式的小模型,而VLA在傳統(tǒng)端到端方案的基礎(chǔ)上引入了大語言模型LLM之后,成了端到端形式的大模型。
圖片來源:元戎啟行
和小模型相比,大模型顯然更加吻合尺度定律Scaling Law:通過更多訓(xùn)練數(shù)據(jù)、更大參數(shù)規(guī)模提升模型的能力。要知道,傳統(tǒng)端到端方案的神經(jīng)網(wǎng)路架構(gòu)過于簡單,在數(shù)據(jù)訓(xùn)練量突破1000萬個Clips之后,性能很難繼續(xù)同步提升,而VLA引入了大語言模型,通過更大的參數(shù)提供了更高的表達(dá)自由度,能夠在更大規(guī)模訓(xùn)練數(shù)據(jù)的驅(qū)動下,構(gòu)建出可建立更多層次、更長時序、全局性語義特征的模型。引入大語言模型保證繼續(xù)遵循尺度定律還意味著,在模型架構(gòu)保持不變的情況下,企業(yè)可以實(shí)現(xiàn)對未來模型性能的準(zhǔn)確預(yù)測。對于資源日益捉襟見肘的車企來說,這意味著它在模型上的訓(xùn)練不會白燒錢,當(dāng)然,這也意味著智駕企業(yè)在VLA上的迭代和探索在很長一段時間之內(nèi)都不會觸及天花板。
除了形式和內(nèi)容上的區(qū)別,常規(guī)端到端和VLA當(dāng)然還有在功能作用上的區(qū)別。小鵬汽車掌門人何小鵬在G7預(yù)售發(fā)布會上以大腦和小腦為喻,間接地講述過傳統(tǒng)端到端和VLA的功能作用。大師兄表示,傳統(tǒng)端到端方案發(fā)揮的是運(yùn)動小腦的功能,起到的作用是“讓汽車會開”,VLA這種進(jìn)化版端到端方案額外引入了壓縮了人類知識的大語言模型,發(fā)揮的是思考大腦的功能,起到的作用是“讓汽車開好”。
圖片來源:小鵬汽車
在這里可以做一個總結(jié)了。無論是形式、內(nèi)容還是功能、作用,常規(guī)端到端和VLA的核心區(qū)別就在于端到端沒有大語言模型,VLA則引入了可以起到?jīng)Q策中樞或大腦作用的大語言模型。
兩種VLA路線
說到在傳統(tǒng)端到端方案的基礎(chǔ)上引入大語言模型,業(yè)界之前其實(shí)有過另外一種實(shí)踐,其代表是理想汽車的雙系統(tǒng)方案。24年7月份,理想汽車提出了單顆英偉達(dá)Orin X運(yùn)行端到端方案、單顆Orin X運(yùn)行視覺語言模型的雙系統(tǒng)方案,通過VLM主動思考、理解世界的能力,其雙系統(tǒng)方案可以識別公交車道、潮汐車道,能夠鑒別復(fù)雜的交通標(biāo)識,在一定程度上具備了只有人類大腦才能具備的交通信息閱讀理解能力。
圖片來源:理想汽車
VLM盡管引入了大語言模型,卻并不直接參與軌跡的生成,無法利用車端采集的大量“視覺輸入-軌跡輸出”數(shù)據(jù)做訓(xùn)練,再加上VLM不具備3D理解能力,業(yè)界紛紛摒棄了這種雙系統(tǒng)方案。至于VLA,大路朝天,各走一邊,作為本土車企中探索VLA方案的兩個先行者,理想汽車和小鵬汽車走出了略微不同的路線。兩者的不同主要體現(xiàn)在兩個方面。第一,理想汽車先對云端基座大模型做蒸餾,然后再對蒸餾后的端側(cè)模型做強(qiáng)化學(xué)習(xí),小鵬汽車則是先對云端基座大模型做強(qiáng)化學(xué)習(xí),然后再蒸餾到車端。第二,對于用戶語音控車這種復(fù)雜任務(wù)處理,理想汽車走的是端云結(jié)合路線,由云端基座大模型做復(fù)雜任務(wù)拆解,再將拆解后的簡單任務(wù)下發(fā)到端側(cè),小鵬汽車則是在座艙部署一個幾十B(幾百億)參數(shù)的本地大模型,通過中央融合架構(gòu),將座艙端拆解的指令下發(fā)給智駕系統(tǒng)實(shí)現(xiàn)。
圖片來源:理想汽車
區(qū)別一在于小鵬對幾百億參數(shù)的云端基座大模型做強(qiáng)化學(xué)習(xí),理想對幾十億參數(shù)的車端VLA模型做強(qiáng)化學(xué)習(xí),孰優(yōu)孰劣,還得看具體的表現(xiàn),不過,引入強(qiáng)化學(xué)習(xí)的步驟恰恰也是傳統(tǒng)端到端方案和VLA的區(qū)別。傳統(tǒng)端到端方案依賴數(shù)據(jù)驅(qū)動建立傳感器數(shù)據(jù)-軌跡的因果關(guān)聯(lián),這種模仿學(xué)習(xí)缺乏對場景語義的深層解析,對駕駛場景只能做到知其然而不知其所以然,而VLA中的大語言模型經(jīng)過強(qiáng)化學(xué)習(xí),不僅可以知其然,還能做到知其所以然。
區(qū)別二在于如何在智駕系統(tǒng)不退出的情況下實(shí)現(xiàn)人機(jī)共駕。幾十億參數(shù)模型的語言理解能力顯然不足以做復(fù)雜語音指令任務(wù)的處理,理想將這部分任務(wù)拋給云端,但可能會由于斷網(wǎng)、弱網(wǎng)等因素出現(xiàn)不可接受的延遲,而且涉及到云端運(yùn)營的問題,小鵬直接在座艙部署可處理復(fù)雜任務(wù)的幾百億參數(shù)大模型,缺點(diǎn)在于座艙需要用一顆等價算力高達(dá)大幾百TOPS的AI芯片,如果沒有自己的芯片,會比較燒錢。
寫在最后
評論