近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展和突破,大規(guī)模的基礎(chǔ)模型(Foundation Models)在自然語言處理和計算機視覺領(lǐng)域取得了顯著性的成果?;A(chǔ)模型在自動駕駛當中的應(yīng)用也有很大的發(fā)展前景,可以提高對于場景的理解和推理。
通過對豐富的語言和視覺數(shù)據(jù)進行預(yù)訓(xùn)練,基礎(chǔ)模型可以理解和解釋自動駕駛場景中的各類元素并進行推理,為駕駛決策和規(guī)劃提供語言和動作命令。
基礎(chǔ)模型可以根據(jù)對駕駛場景的理解來實現(xiàn)數(shù)據(jù)增強,用于提供在常規(guī)駕駛和數(shù)據(jù)收集期間不太可能遇到的長尾分布中那些罕見的可行場景以實現(xiàn)提高自動駕駛系統(tǒng)準確性和可靠性的目的。
對基礎(chǔ)模型應(yīng)用的另外一個場景是在于世界模型,該模型展示了理解物理定律和動態(tài)事物的能力。通過采用自監(jiān)督的學(xué)習(xí)范式對海量數(shù)據(jù)進行學(xué)習(xí),世界模型可以生成不可見但是可信的駕駛場景,促進對于動態(tài)物體行為預(yù)測的增強以及駕駛策略的離線訓(xùn)練過程。
本文主要概述了基礎(chǔ)模型在自動駕駛領(lǐng)域中的應(yīng)用,并根據(jù)基礎(chǔ)模型在自動駕駛模型方面的應(yīng)用、基礎(chǔ)模型在數(shù)據(jù)增強方面的應(yīng)用以及基礎(chǔ)模型中世界模型對于自動駕駛方面的應(yīng)用三方面進行展開。
自動駕駛模型
基于語言和視覺基礎(chǔ)模型的類人駕駛
在自動駕駛中,語言和視覺的基礎(chǔ)模型顯示出了巨大的應(yīng)用潛力,通過增強自動駕駛模型在駕駛場景中的理解和推理,實現(xiàn)自動駕駛的類人駕駛。下圖展示了基于語言和視覺的基礎(chǔ)模型對駕駛場景的理解以及給出語言引導(dǎo)指令和駕駛行為的推理。
基礎(chǔ)模型對于自動駕駛模型增強范式
目前很多工作都已經(jīng)證明語言和視覺特征可以有效增強模型對于駕駛場景的理解,再獲取到對于當前環(huán)境的整體感知理解后,基礎(chǔ)模型就會給出一系列的語言命令,如:“前方有紅燈,減速慢行”,“前方有十字路口,關(guān)注行人”等相關(guān)語言指令,便于自動駕駛汽車根據(jù)相關(guān)的語言指令執(zhí)行最終的駕駛行為。
最近,學(xué)術(shù)界和工業(yè)界將GPT的語言知識嵌入到自動駕駛的決策過程中,以語言命令的形式提高自動駕駛的性能,以促進大模型自動駕駛中的應(yīng)用。考慮到大模型有望真正部署在車輛端,它最終需要落在規(guī)劃或控制指令上,基礎(chǔ)模型最終應(yīng)該從動作狀態(tài)級別授權(quán)自動駕駛。一些學(xué)者已經(jīng)進行了初步探索,但仍有很多發(fā)展空間。更重要的是,一些學(xué)者通過類似GPT的方法探索了自動駕駛模型的構(gòu)建,該方法直接輸出基于大規(guī)模語言模型的軌跡甚至控制命令,相關(guān)工作已經(jīng)匯總在如下表格中。
使用預(yù)訓(xùn)練主干網(wǎng)絡(luò)進行端到端自動駕駛
上述的相關(guān)內(nèi)容其核心思路是提高自動駕駛決策的可解釋性,增強場景理解,指導(dǎo)自動駕駛系統(tǒng)的規(guī)劃或控制。在過去的一段時間內(nèi),有許多工作一直以各種方式優(yōu)化預(yù)訓(xùn)練主干網(wǎng)絡(luò),也有許多研究嘗試開發(fā)基于Transformer架構(gòu)的端到端框架,并且取得了非常不錯的成績。因此,為了更加全面的總結(jié)基礎(chǔ)模型在自動駕駛中的應(yīng)用,我們對預(yù)訓(xùn)練主干的端到端自動駕駛相關(guān)研究進行了總結(jié)和回顧。下圖展示了端到端自動駕駛的整體過程。
基于預(yù)訓(xùn)練主干網(wǎng)絡(luò)的端到端自動駕駛系統(tǒng)的流程圖
在端到端自動駕駛的整體流程中,從原始數(shù)據(jù)中提取低級信息在一定程度上決定了后續(xù)模型性能的潛力,優(yōu)秀的預(yù)訓(xùn)練骨干可以使模型具有更強的特征學(xué)習(xí)能力。ResNet和VGG等預(yù)訓(xùn)練卷積網(wǎng)絡(luò)是端到端模型視覺特征提取應(yīng)用最廣泛的主干網(wǎng)絡(luò)。這些預(yù)訓(xùn)練網(wǎng)絡(luò)通常利用目標檢測或分割作為提取廣義特征的任務(wù)進行訓(xùn)練,并且他們所取得的性能已經(jīng)在很多工作中得到了驗證。
此外,早期的端到端自動駕駛模型主要是基于各種類型的卷積神經(jīng)網(wǎng)絡(luò),通過模仿學(xué)習(xí)或者強化學(xué)習(xí)的方式來完成。最近的一些工作試圖建立一個具有Transformer網(wǎng)絡(luò)結(jié)構(gòu)的端到端自動駕駛系統(tǒng),并且同樣取得了比較不錯的成績,比如Transfuser、FusionAD、UniAD等工作。
數(shù)據(jù)增強
隨著深度學(xué)習(xí)技術(shù)的進一步發(fā)展,底層網(wǎng)絡(luò)架構(gòu)的進一步完善和升級,具有預(yù)訓(xùn)練和微調(diào)的基礎(chǔ)模型已經(jīng)展現(xiàn)出了越來越強大的性能。由GPT代表的基礎(chǔ)模型已經(jīng)使得大模型從學(xué)習(xí)范式的規(guī)則向數(shù)據(jù)驅(qū)動的方式進行轉(zhuǎn)換。數(shù)據(jù)作為模型學(xué)習(xí)關(guān)鍵環(huán)節(jié)的重要性是無可替代的。在自動駕駛模型的訓(xùn)練和測試過程中,大量的場景數(shù)據(jù)被用來使模型能夠?qū)Ω鞣N道路和交通場景具有良好的理解和決策能力。自動駕駛面臨的長尾問題也是這樣一種事實,即存在無窮無盡的未知邊緣場景,使模型的泛化能力似乎永遠不足,導(dǎo)致性能較差。
數(shù)據(jù)增強對于提高自動駕駛模型的泛化能力至關(guān)重要。數(shù)據(jù)增強的實現(xiàn)需要考慮兩個方面
一方面:如何獲取大規(guī)模的數(shù)據(jù),使提供給自動駕駛模型的數(shù)據(jù)具有足夠的多樣性和廣泛性
另一方面:如何獲取盡可能多的高質(zhì)量數(shù)據(jù),使用于訓(xùn)練和測試自動駕駛模型的數(shù)據(jù)準確可靠
所以,相關(guān)的研究工作主要從以上兩個方面開展相關(guān)的技術(shù)研究,一是豐富現(xiàn)有的數(shù)據(jù)集中的數(shù)據(jù)內(nèi)容,增強駕駛場景中的數(shù)據(jù)特征。二是通過模擬的方式生成多層次的駕駛場景。
擴展自動駕駛數(shù)據(jù)集
現(xiàn)有的自動駕駛數(shù)據(jù)集主要是通過記錄傳感器數(shù)據(jù)然后標記數(shù)據(jù)來獲得的。通過這種方式獲得的數(shù)據(jù)特征通常是很低級的,同時數(shù)據(jù)集的量級也是比較差,這對于自動駕駛場景的視覺特征空間是完全不夠的。語言模型表示的基礎(chǔ)模型在高級語義理解、推理和解釋能力為自動駕駛數(shù)據(jù)集的豐富和擴展提供了新的思路和技術(shù)途徑。通過利用基礎(chǔ)模型的高級理解、推理和解釋能力來擴展數(shù)據(jù)集可以幫助更好地評估自動駕駛系統(tǒng)的可解釋性和控制,從而提高自動駕駛系統(tǒng)的安全性和可靠性。
生成駕駛場景
駕駛場景對自動駕駛來說具有重要的意義。為了獲得不同的駕駛場景數(shù)據(jù),僅依賴采集車輛的傳感器進行實時采集需要消耗巨大的成本,很難為一些邊緣場景獲得足夠的場景數(shù)據(jù)。通過仿真生成逼真的駕駛場景引起了許多研究者的關(guān)注,交通仿真研究主要分為基于規(guī)則和數(shù)據(jù)驅(qū)動兩大類。
基于規(guī)則的方法:使用預(yù)定義的規(guī)則,這些規(guī)則通常不足以描述復(fù)雜的駕駛場景,并且模擬的駕駛場景更簡單、更通用
基于數(shù)據(jù)驅(qū)動的方法:使用駕駛數(shù)據(jù)來訓(xùn)練模型,模型可以從中持續(xù)學(xué)習(xí)和適應(yīng)。然而,數(shù)據(jù)驅(qū)動的方法通常需要大量的標記數(shù)據(jù)進行訓(xùn)練,這阻礙了流量模擬的進一步發(fā)展
隨著技術(shù)的發(fā)展,目前數(shù)據(jù)的生成方式已經(jīng)逐漸由規(guī)則的方式轉(zhuǎn)換為數(shù)據(jù)驅(qū)動的方式。通過高效、準確地模擬駕駛場景,包括各種復(fù)雜和危險的情況,為模型學(xué)習(xí)提供了大量的訓(xùn)練數(shù)據(jù),可以有效提高自動駕駛系統(tǒng)的泛化能力。同時,生成的駕駛場景也可用于評估不同的自動駕駛系統(tǒng)和算法來測試和驗證系統(tǒng)性能。下表是不同數(shù)據(jù)增強策略的總結(jié)。
世界模型
世界模型被認為是為一種人工智能模型,它包含了它運行的環(huán)境的整體理解或表示。該模型能夠模擬環(huán)境做出預(yù)測或決策。在最近的文獻中,強化學(xué)習(xí)的背景下提到了術(shù)語”世界模型”。這個概念在自動駕駛應(yīng)用中也得到了關(guān)注,因為它能夠理解和闡明駕駛環(huán)境的動態(tài)特性。世界模型與強化學(xué)習(xí)、模仿學(xué)習(xí)和深度生成模型高度相關(guān)。然而,在強化學(xué)習(xí)和模仿學(xué)習(xí)中利用世界模型通常需要標注好的數(shù)據(jù),并且SEM2以及MILE等方法都是在監(jiān)督范式中進行的。同時,也有嘗試根據(jù)標記的數(shù)據(jù)的局限性將強化學(xué)習(xí)和無監(jiān)督學(xué)習(xí)結(jié)合起來。由于與自監(jiān)督學(xué)習(xí)密切相關(guān),深度生成模型變得越來越流行,目前已經(jīng)提出了很多工作。下圖展示出來了使用世界模型增強自動駕駛模型的整體流程圖。
深度生成模型
深度生成模型通常包括變分自動編碼器、生成對抗網(wǎng)絡(luò)、流模型以及自回歸模型。
變分自動編碼器結(jié)合了自動編碼器和概率圖形模型的思想來學(xué)習(xí)數(shù)據(jù)的底層結(jié)構(gòu)并生成新樣本
生成對抗網(wǎng)絡(luò)由兩個神經(jīng)網(wǎng)絡(luò)、生成器和鑒別器組成,它們利用對抗訓(xùn)練相互競爭和增強,最終實現(xiàn)生成真實樣本的目標
流模型通過一系列可逆變換將簡單的先驗分布轉(zhuǎn)換為復(fù)雜的后驗分布來生成相似的數(shù)據(jù)樣本
自回歸模型是一類序列分析方法,基于序列數(shù)據(jù)之間的自相關(guān),描述當前觀測值與過去觀測值之間的關(guān)系,模型參數(shù)的估計通常是利用最小二乘法和最大似然估計來完成的。擴散模型是一種典型的自回歸模型,它從純噪聲數(shù)據(jù)中學(xué)習(xí)逐步去噪的過程。由于其強大的生成性能,擴散模型是當前深度生成模型中的新SOTA模型
生成式方法
基于深度生成模型的強大能力,利用深度生成模型作為世界模型學(xué)習(xí)駕駛場景以增強自動駕駛已經(jīng)逐漸成為研究熱點。接下來我們將回顧利用深度生成模型作為自動駕駛中的世界模型的應(yīng)用。視覺是人類獲取有關(guān)世界信息的最直接有效的方法之一,因為圖像數(shù)據(jù)中包含的特征信息極其豐富。許多以前的工作通過世界模型完成了圖像生成的任務(wù),表明世界模型對圖像數(shù)據(jù)具有良好的理解和推理能力。目前整體來看,研究者們希望可以從圖像數(shù)據(jù)中學(xué)習(xí)世界的內(nèi)在進化規(guī)律,然后預(yù)測未來的狀態(tài)。結(jié)合自監(jiān)督學(xué)習(xí),世界模型用于從圖像數(shù)據(jù)中學(xué)習(xí),充分釋放模型的推理能力,為視覺域構(gòu)建廣義基礎(chǔ)模型提供了一種可行的方向。
非生成式方法
與生成世界模型相比,LeCun通過提出聯(lián)合提取和預(yù)測架構(gòu) (JEPA) 詳細闡述了他對世界模型的不同概念。這是一個非生成和自監(jiān)督的架構(gòu),因為它不直接根據(jù)輸入數(shù)據(jù)來預(yù)測輸出結(jié)果,而是將輸入數(shù)據(jù)編碼在一種抽象空間中進行編碼完成最終的預(yù)測。這種預(yù)測方式的優(yōu)點是它不需要預(yù)測關(guān)于輸出結(jié)果的所有信息,并且可以消除不相關(guān)的細節(jié)信息。
JEPA是一種基于能量模型的自監(jiān)督學(xué)習(xí)架構(gòu),它觀察和學(xué)習(xí)世界如何工作和高度概括的規(guī)律。JEPA在自動駕駛中也有很大的潛力,有望通過學(xué)習(xí)駕駛是如何工作的來生成高質(zhì)量的駕駛場景和駕駛策略。
結(jié)論
本文全面概述了基礎(chǔ)模型在自動駕駛應(yīng)用中的重要作用。從本文調(diào)研的相關(guān)研究工作的總結(jié)和發(fā)現(xiàn)來看,另一個值得進一步探索的方向是如何為自監(jiān)督學(xué)習(xí)設(shè)計一個有效的網(wǎng)絡(luò)架構(gòu)。自監(jiān)督學(xué)習(xí)可以有效地突破數(shù)據(jù)標注的局限性,允許模型大規(guī)模的對數(shù)據(jù)進行學(xué)習(xí),充分釋放模型的推理能力。如果自動駕駛的基礎(chǔ)模型可以在自監(jiān)督學(xué)習(xí)范式下使用不同規(guī)模的駕駛場景數(shù)據(jù)進行訓(xùn)練,則預(yù)計其泛化能力將大大提高。這種進步可能會實現(xiàn)更通用的基礎(chǔ)模型。
總之,雖然在將基礎(chǔ)模型應(yīng)用于自動駕駛方面存在許多挑戰(zhàn),但其具有非常廣闊的應(yīng)用空間和發(fā)展前景。未來,我們將繼續(xù)觀察應(yīng)用于自動駕駛的基礎(chǔ)模型的相關(guān)進展。