編者按:FSD V12 實現(xiàn) End - to - End AI
瑞鵬資產(chǎn) 趙圣斌
智能駕駛行業(yè)真是太卷了,年初大家還在爭相宣傳“無圖”智駕,可以不依賴高精度地圖,全國都能開。僅僅幾個月之后,“無圖”智駕就不再受人追捧,“端到端”一躍成為這個行業(yè)最靚的崽。那么到底什么是“端到端”,有哪些優(yōu)點,如何實現(xiàn),本文就給大家做個詳細解析。
一、什么是“端到端”?
智能駕駛系統(tǒng)一般采用模塊化模型,“感知、預測、規(guī)劃、控制”等幾個功能模塊都有獨立的模型。每個模型的技術(shù)棧差異較大,處于下游的規(guī)劃模型需要依賴工程師編寫大量代碼去制定行駛規(guī)則。在模塊化的技術(shù)架構(gòu)下,信息的傳遞會出現(xiàn)減損,系統(tǒng)的維護難度大,無法從容應對復雜路況。
而端到端模型則截然不同,該模型將“感知、預測、規(guī)劃、控制”等幾個模型融為一體,無需程序員編寫冗長的代碼去制定規(guī)則,而是用海量數(shù)據(jù)去訓練系統(tǒng),賦予機器自主學習、思考和分析的能力。端到端模型不會出現(xiàn)信息傳遞減損,能夠更好地處理復雜的駕駛?cè)蝿眨鉀Q了模塊化模型存在的所有“痛點”。
智能駕駛信息的傳遞不應該是“你畫我猜”,而是像人類一樣對所見到的信息作出最直接的反應。模塊化模型是將一個復雜任務分解成多個子任務,逐個解決,這樣的解決問題方式既曲折又容易出錯。而端到端模型則是基于問題的根本,直接尋求最優(yōu)的解決方案。
二、“端到端”智駕系統(tǒng)的優(yōu)點
模塊化的智駕系統(tǒng)是“Rule-based”,是基于規(guī)則的,需要在智駕軟件中編寫無數(shù)的駕駛規(guī)則。但是由于實際交通道路上總是有突發(fā)狀況,也就是corner case,所以Rule-based的智駕系統(tǒng)總是不能讓人放心。傳統(tǒng)的自動駕駛系統(tǒng)是靠規(guī)則寫出來的,只有感知層那一部分是靠神經(jīng)網(wǎng)絡。后面融合、定位、規(guī)控、決策這些都是靠規(guī)則寫。那么實際自動駕駛的世界,很多情況很復雜,很多事情是用規(guī)則寫不清楚的,很多Corner Case解決不了,那么智駕系統(tǒng)在大規(guī)模商用推廣后就存在很大的安全隱患。
“端到端”的智駕系統(tǒng),是“Learning-based”,是基于人類實際駕駛數(shù)據(jù)訓練出來的。有一些公司做的“端到端”是分兩段,前面的感知層用一個網(wǎng)絡,后面的規(guī)控、決策再用一個網(wǎng)絡,然后把規(guī)則替掉。但是它的“輸入”還是感知的一個“輸出”,感知的輸出信息量已經(jīng)被大大簡化了。
“端到端”還有一個優(yōu)點,可以學習不同駕駛員的(駕駛)風格,比如偏激進式的還是保守型,它也能夠?qū)W到。你可以選擇不同的這些風格。另外,“端到端”智駕系統(tǒng)基本上都是多模態(tài)的大模型,它的輸入不光是這些各種傳感器的信號,還有人的語言指令讓它怎么去開。因為現(xiàn)在本來就眾口難調(diào),駕駛風格上有的是換道、超車比較激進;有的時候不想換道、超車,那就待在左車道,想自己放松一下,駕駛起來不要太緊張。那么這時候,可以通過語言的指令去控制車的駕駛情況。再比如我要跟前面這輛車,它去換道的時候你也去可以跟隨它。
三、如何實現(xiàn)“端到端”智駕
訓練出來一個優(yōu)秀的“端到端”智駕大模型,需要數(shù)據(jù)、算法和算力的協(xié)同。
數(shù)據(jù)端,是訓練好算法的重中之重,如何收集海量的有效數(shù)據(jù),并且通過訓練讓模型在相應的場景表現(xiàn)出對應的駕駛行為考驗著開發(fā)者的技術(shù)能力。由于端到端的訓練,不再會由工程師編寫規(guī)劃控制的規(guī)則,所有模型的行為全部由訓練模型的視頻數(shù)據(jù)來決定,因此訓練數(shù)據(jù)的質(zhì)量就顯得尤為重要,平庸的數(shù)據(jù)不僅不能改善自動駕駛的性能,還可能會起到負面的影響。特斯拉開發(fā)了眾多軟件來篩選數(shù)據(jù),決定使用那些數(shù)據(jù)以及明確什么數(shù)據(jù)是高質(zhì)量數(shù)據(jù)是關鍵。例如,在此前的軟件堆棧中,紅燈、綠燈、交通燈的位置和車道的對應關系都會被明確的識別和表示,但FSD V12 中,并沒有顯式的信息,全部由視頻讓算法來判斷何時應該剎停何時應該啟動。另外一個例子也被多次提到,即海外的監(jiān)管機構(gòu)要求特斯拉自動駕駛車輛在STOP標志附近完全剎停,而人類司機通常很少在標志牌附近完全停住,因此特斯拉必須在駕駛數(shù)據(jù)里面尋找一些罕見的案例,來訓練并“教會”算法在STOP 標志牌附近完全剎停。
算力端,是訓練自動駕駛模型的基礎。在2022 年的特斯拉AI DAY 上,馬斯克表示目前特斯拉擁有超過1.4 萬顆GPU的超算中心。2023年8月特斯拉又啟動了1萬顆英偉達H100GPU的新訓練集群。而特斯拉還明確目標,依靠英偉達的GPU和自身的Dojo超級計算機,特斯拉的算力要在2024年底達到100EFlops,如此規(guī)模的算力集群給端到端模型的訓練和快速迭代提供了良好的土壤,對實現(xiàn)端到端自動駕駛必不可缺。
算法端,“端到端”的算法實際上需要依賴此前模塊化算法的基礎,如何構(gòu)建好的算法模塊和體系對開發(fā)者來說也尤為重要,同時算法的剪裁、訓練亦是打造完美端到端算法的重心。
四、總結(jié)
從上面的分析可以看出,席卷全球的大語言模型和GPU軍備競賽,催生出了“端到端”智駕系統(tǒng),給自動駕駛的真正商業(yè)化落地帶來了曙光。
截至到2024年5月底,將“端到端”智駕系統(tǒng)真正投入商業(yè)化運營的,全球只有特斯拉。我國的華為、小鵬、百度、元戎啟行、商湯也對外宣稱正在開發(fā)和測試“端到端”智駕系統(tǒng),并有望在2024年下半年投入商用。
隨著特斯拉FSD入華腳步的逐漸臨近,中國將成為全球智駕系統(tǒng)的頂級賽場,從而正式開啟智能汽車革命的“下半場”。