世界模型,即通過預(yù)測未來的范式對(duì)數(shù)字世界和物理世界進(jìn)行理解,是通往實(shí)現(xiàn)通用人工智能(AGI)的關(guān)鍵路徑之一。
在視頻生成領(lǐng)域,OpenAI 發(fā)布的 Sora 引起了廣泛關(guān)注,Sora 具有極強(qiáng)的仿真能力,可以展現(xiàn)出對(duì)物理世界的初步理解;視頻生成領(lǐng)軍企業(yè) Runway 在技術(shù)博客中表示,文生視頻系統(tǒng) Gen-2 的下一代產(chǎn)品將會(huì)通過通用世界模型來實(shí)現(xiàn)。在自動(dòng)駕駛領(lǐng)域,Tesla 和 Wayve 均表示在利用世界模型的預(yù)測未來特性構(gòu)建其端到端自動(dòng)駕駛系統(tǒng)。在更廣泛的通用機(jī)器人智能領(lǐng)域,LeCun 多次在演講中表示對(duì)世界模型潛力的極大關(guān)注,并預(yù)言世界模型將會(huì)取代自回歸模型成為新一代智能系統(tǒng)的基礎(chǔ)。
為了對(duì)世界模型的最新進(jìn)展進(jìn)行全面探索和總結(jié),近日,北京極佳視界科技有限公司(極佳科技)的研究人員聯(lián)合國內(nèi)外多家單位(中國科學(xué)院自動(dòng)化研究所、新加坡國立大學(xué)、中國科學(xué)院計(jì)算技術(shù)研究所、上海人工智能實(shí)驗(yàn)室、邁馳智行、西北工業(yè)大學(xué)、清華大學(xué)等)推出了全球首篇通用世界模型綜述。
該綜述通過 260 余篇文獻(xiàn),對(duì)世界模型在視頻生成、自動(dòng)駕駛、智能體、通用機(jī)器人等領(lǐng)域的研究和應(yīng)用進(jìn)行了詳盡的分析和討論。另外,該綜述還審視了當(dāng)前世界模型的挑戰(zhàn)和局限性,并展望了它們未來的發(fā)展方向。
極佳科技的研究人員表示,會(huì)在 GitHub 項(xiàng)目中持續(xù)更新關(guān)于通用世界模型的更多研究進(jìn)展,希望該綜述能夠成為通用世界模型的研究參考。
世界模型通過對(duì)未來的預(yù)測來增進(jìn)對(duì)世界的理解。如下圖所示,世界模型的預(yù)測能力對(duì)于視頻生成、自動(dòng)駕駛以及智能體的發(fā)展至關(guān)重要,這三者代表了世界模型研究的主流應(yīng)用方向。
首先,視頻生成世界模型是指利用世界模型技術(shù)來生成和編輯視頻,以便理解和模擬真實(shí)世界的情景。通過這種方式,能夠更好地了解和表達(dá)復(fù)雜的視覺信息,為藝術(shù)創(chuàng)作提供了全新的可能性。
其次,自動(dòng)駕駛世界模型是指利用視頻生成和預(yù)測技術(shù)來創(chuàng)造和理解駕駛場景,并從這些場景中學(xué)習(xí)駕駛行為和策略,這對(duì)于實(shí)現(xiàn)端到端的自動(dòng)駕駛系統(tǒng)具有重要意義。
最后,智能體世界模型是指利用視頻生成和預(yù)測技術(shù)在動(dòng)態(tài)環(huán)境中建立智能體與環(huán)境的交互,與自動(dòng)駕駛模型不同,智能體世界模型構(gòu)建的是適用于各種環(huán)境和情境的智能策略網(wǎng)絡(luò);這些智能體可能是虛擬的,例如在游戲中控制角色的行為,也可能是實(shí)體的,例如控制機(jī)器人在物理世界中執(zhí)行任務(wù);通過這種方式,智能體世界模型為實(shí)現(xiàn)智能互動(dòng)和智能控制提供了新的解決方案。
視頻生成領(lǐng)域
如下圖所示,首先,該綜述按照時(shí)間順序討論介紹了近年來提出的代表性視頻生成模型。在 2021 年之前,以 GAN 為基礎(chǔ)的模型(IRC-GAN、TGANs-C、TFGSN、StoryGAN、TiVGAN 等)主導(dǎo)了視頻生成領(lǐng)域。之后,基于自回歸建模(GODIVA、VideoGPT 等)、擴(kuò)散建模(Imagen Video、SVD、CogVideo 等)和掩碼建模(MAGVIT、VideoPoet、WorldDreamer 等)的模型開始出現(xiàn),并取得了更好的生成效果。
以 GAN 為基礎(chǔ)的模型(下圖 (a))將生成器和判別器網(wǎng)絡(luò)進(jìn)行對(duì)抗訓(xùn)練,使得生成的視頻更加真實(shí)。擴(kuò)散建模(下圖 (b))則將視頻信號(hào)編碼到隱空間,引入一個(gè)降噪過程來生成視頻,通過在隱空間多步降噪從純?cè)肼曋薪獯a恢復(fù)出高質(zhì)量視頻?;谧曰貧w建模的模型(下圖 (c))使用預(yù)測下一個(gè)視覺 Token 的方法,逐步生成下一個(gè)時(shí)間對(duì)應(yīng)的視頻內(nèi)容,這種方法能夠捕捉時(shí)間序列中的依賴關(guān)系,生成連貫和真實(shí)的視頻。而掩碼建模(下圖 (d))則通過在訓(xùn)練過程中對(duì)部分視覺信息進(jìn)行遮擋,并逐步恢復(fù)出掩碼區(qū)域,最終得到無掩碼的清晰視頻。綜上所述,近年來視頻生成模型呈現(xiàn)出了多樣化和創(chuàng)新化的發(fā)展趨勢(shì),不同的模型方法相繼涌現(xiàn)并取得了令人矚目的生成效果。
Sora 是最近備受矚目的視頻生成模型,其技術(shù)方案依賴于上圖 (c) 的擴(kuò)散模型。由于 Sora 是閉源的,本綜述的相關(guān)分析主要基于其技術(shù)報(bào)告(https://openai.com/index/video-generation-models-as-world-simulators)。如下圖所示,Sora 主要包括三個(gè)部分:
壓縮模型:該模型將原始視頻在時(shí)間和空間上進(jìn)行壓縮,轉(zhuǎn)換成隱空間的特征進(jìn)行表示,并且有一個(gè)解碼器可以將隱空間特征映射回原始視頻。
基于 Transformer 的擴(kuò)散模型:與 DiT(Scalable Diffusion Models with Transformers)方法類似,該模型在隱空間中對(duì)含有噪聲的視覺特征不斷進(jìn)行降噪處理。
語言模型:使用大語言模型將用戶的輸入編碼為詳細(xì)的 promts,以此控制視頻的生成。
自動(dòng)駕駛領(lǐng)域
除了視頻生成方向,世界模型在自動(dòng)駕駛場景下也存在巨大的應(yīng)用價(jià)值,近些年來被研究者們不斷探索。下圖展示了自 2023 年以來,世界模型在自動(dòng)駕駛場景場景下的研究發(fā)展,其中包括三種類型:端到端自動(dòng)駕駛、駕駛場景 2D 模擬器和駕駛場景 3D 模擬器。
在自動(dòng)駕駛領(lǐng)域,世界模型可以用來構(gòu)建環(huán)境的動(dòng)態(tài)表示。對(duì)未來的準(zhǔn)確預(yù)測對(duì)于確保在各種工況下進(jìn)行安全駕駛至關(guān)重要。因此,端到端自動(dòng)駕駛方法(Iso-Dream、MILE、SEM2 等)通過最小化搜索空間并在 CARLA v1 模擬器上集成視覺動(dòng)態(tài)的明確解耦來應(yīng)對(duì)這些挑戰(zhàn)。TrafficBots 則是另一種基于世界模型的端到端駕駛方法,其側(cè)重于預(yù)測給定情景中各個(gè)智能體的行為。通過考慮每個(gè)智能體的目的地,TrafficBots 利用條件變分自動(dòng)編碼器賦予各個(gè)智能體獨(dú)特的特征,從 BEV(鳥瞰圖)視角實(shí)現(xiàn)動(dòng)作預(yù)測。
上述方法在 CARLA v1 上進(jìn)行了實(shí)驗(yàn),但面臨 CARLA v2 中數(shù)據(jù)低效性的挑戰(zhàn)。為了解決 CARLA v2 場景的復(fù)雜性。Think2Drive 提出一種基于模型的強(qiáng)化學(xué)習(xí)方法用于自動(dòng)駕駛,鼓勵(lì)規(guī)劃器在學(xué)習(xí)的潛在空間中進(jìn)行 “思考”。該方法通過利用低維狀態(tài)空間和張量的并行計(jì)算顯著提高了訓(xùn)練效率。
高質(zhì)量的數(shù)據(jù)是訓(xùn)練深度學(xué)習(xí)模型的基石。雖然互聯(lián)網(wǎng)文本和圖像數(shù)據(jù)成本較低且易于獲取,但在自動(dòng)駕駛領(lǐng)域獲取數(shù)據(jù)存在著諸多挑戰(zhàn),原因包括傳感器復(fù)雜性和隱私問題等因素。特別是在獲取直接影響實(shí)際駕駛安全的長尾目標(biāo)時(shí)更是如此。世界模型對(duì)于理解和模擬復(fù)雜的物理世界至關(guān)重要。
一些最近的研究已經(jīng)將擴(kuò)散模型引入到自動(dòng)駕駛領(lǐng)域,以構(gòu)建世界模型作為神經(jīng)模擬器,生成所需的自主 2D 駕駛視頻。此外,一些方法利用世界模型生成未來場景的 3D 占用網(wǎng)格或 LiDAR 點(diǎn)云。
下表提供了基于世界模型的駕駛場景數(shù)據(jù)生成方法的總結(jié)。
智能體、機(jī)器人領(lǐng)域
除了自動(dòng)駕駛領(lǐng)域,世界模型在智能體、機(jī)器人領(lǐng)域也有廣泛的應(yīng)用。給定一個(gè)目標(biāo),智能體需要規(guī)劃一系列動(dòng)作完成指定任務(wù)。已經(jīng)有許多成功的算法用于在已知環(huán)境中進(jìn)行動(dòng)態(tài)規(guī)劃,然而在大多數(shù)情況下,環(huán)境是復(fù)雜和隨機(jī)的,難以通過人類經(jīng)驗(yàn)明確建模。
因此,該領(lǐng)域的核心主題是智能體如何在未知和復(fù)雜的環(huán)境中學(xué)習(xí)規(guī)劃。解決這個(gè)問題的一種方法是讓智能體從與環(huán)境的交互中積累經(jīng)驗(yàn),并直接從中學(xué)習(xí)行為,而不對(duì)環(huán)境的狀態(tài)變化建模(即無模型強(qiáng)化學(xué)習(xí))。雖然這種解決方案簡單靈活,但學(xué)習(xí)過程依賴于與環(huán)境的許多交互,成本非常高昂。
World Models 是第一篇在強(qiáng)化學(xué)習(xí)領(lǐng)域引入世界模型概念的研究,其從智能體的經(jīng)驗(yàn)中對(duì)世界的知識(shí)進(jìn)行建模,并獲得預(yù)測未來的能力。這項(xiàng)工作表明,即使是一個(gè)簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)模型也能夠捕捉環(huán)境的動(dòng)態(tài)信息,并支持智能體在該模型中學(xué)習(xí)和演化策略。這種學(xué)習(xí)范式被稱為 “在想象中學(xué)習(xí)”。借助世界模型,試驗(yàn)和失敗的成本可以大大降低。
下圖展示了智能體和機(jī)器人領(lǐng)域的世界模型發(fā)展視概覽,不同顏色顯示了不同結(jié)構(gòu)的世界模型。其中 RSSM(PlatNet、DreamerV1、DreamerV2、DreamerV3 等)占據(jù)主導(dǎo)地位,而 Transformer(TransDreamer、IRIS、Genie 等)、JEPA(JEPA、MC-JEPA、A-JEPA、V-JEPA 等)和擴(kuò)散模型(RoboDreamer、UniSim)從 2022 年開始越來越受到關(guān)注。
Recurrent State Space Model (RSSM) 是 Dreamer 系列的核心結(jié)構(gòu),旨在促進(jìn)潛空間中的預(yù)測。它從像素觀察中學(xué)習(xí)環(huán)境的動(dòng)態(tài)模型,并通過在編碼的潛在空間中規(guī)劃選擇動(dòng)作。通過將潛在狀態(tài)分解為隨機(jī)和確定性部分,該模型考慮了環(huán)境的確定性和隨機(jī)因素。由于在機(jī)器人的連續(xù)控制任務(wù)中表現(xiàn)出色,許多后續(xù)的工作都在其基礎(chǔ)上進(jìn)行了拓展。
Joint-Embedding Predictive Architecture (JEPA) 是由 LeCun 等人提出的,它學(xué)習(xí)從輸入數(shù)據(jù)到預(yù)測輸出的映射關(guān)系。與傳統(tǒng)的生成模型不同,該模型不直接生成像素級(jí)輸出,而是在更高級(jí)別的表示空間中進(jìn)行預(yù)測,從而使模型能夠?qū)W⒂趯W(xué)習(xí)更語義化的特征。JEPA 的另一個(gè)核心思想是通過自監(jiān)督學(xué)習(xí)來訓(xùn)練網(wǎng)絡(luò),以便它可以預(yù)測輸入數(shù)據(jù)中缺失或隱藏的部分。通過自監(jiān)督學(xué)習(xí),模型可以在大量未標(biāo)記的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,然后在下游任務(wù)上進(jìn)行微調(diào),從而提高其在各種視覺和通用任務(wù)上的性能。
Transformer 源自自然語言處理任務(wù)。它基于注意力機(jī)制的原理,使模型能夠同時(shí)關(guān)注輸入數(shù)據(jù)的不同部分。在許多需要長期依賴和基于記憶推理的領(lǐng)域中,Transformer 已被證明比循環(huán)神經(jīng)網(wǎng)絡(luò)更有效,因此近年來在強(qiáng)化學(xué)習(xí)領(lǐng)域受到越來越多的關(guān)注。自 2022 年以來,已有多項(xiàng)工作嘗試基于 Transformer 及其變種構(gòu)建世界模型,在某些復(fù)雜的記憶交互任務(wù)上實(shí)現(xiàn)了比 RSSM 模型更好的性能。其中,Google 的 Genie 引起了相當(dāng)大的關(guān)注。這項(xiàng)工作基于 ST-Transformer 構(gòu)建了一個(gè)生成交互環(huán)境,通過對(duì)大量未標(biāo)記的互聯(lián)網(wǎng)視頻數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練。Genie 展示了一種可定制化操控的世界模型新范式,為未來世界模型的發(fā)展提供了巨大潛力。
近來,也有方法基于擴(kuò)散模型進(jìn)行智能體世界模型的構(gòu)建,RoboDreamer 學(xué)習(xí)構(gòu)成式世界模型以增強(qiáng)機(jī)器人的想象力。它將視頻生成過程進(jìn)行分解,并利用自然語言的固有組合性。通過這種方式,它可以合成未見過的對(duì)象和動(dòng)作組合的視頻。RoboDreamer 將語言指令分解為一組基本元素,然后作為一組模型生成視頻的不同條件。這種方法不僅展示了強(qiáng)大的零樣本泛化能力,還在多模態(tài)指令視頻生成和機(jī)器人操作任務(wù)部署上取得了不俗的結(jié)果。UniSim 則是一個(gè)用于真實(shí)物理世界交互的生成式模擬器。UniSim 包含一個(gè)統(tǒng)一的生成框架,將動(dòng)作作為輸入,集成了多樣的數(shù)據(jù)集。通過這種方法,UniSim 能夠模擬高級(jí)指令和低級(jí)控制的視覺結(jié)果,可以進(jìn)行可控游戲內(nèi)容的創(chuàng)建以及在模擬環(huán)境中訓(xùn)練具身智能對(duì)象。
挑戰(zhàn)及未來發(fā)展方向
盡管近年來在通用世界模型以及特定領(lǐng)域應(yīng)用如自動(dòng)駕駛和機(jī)器人的研究急劇增加,但仍有許多挑戰(zhàn)和機(jī)遇等待進(jìn)一步探索。本綜述也深入探討了當(dāng)前通用世界模型面臨的復(fù)雜挑戰(zhàn),同時(shí)設(shè)想了其未來發(fā)展的潛在方向。
挑戰(zhàn)一:因果和反事實(shí)推理
作為一種預(yù)測模型,世界建模的本質(zhì)在于其推理未來的能力。該模型應(yīng)能夠推斷以前從未遇到過的決策的結(jié)果,而不僅僅是在已知數(shù)據(jù)分布內(nèi)進(jìn)行預(yù)測。正如下圖所示,我們期望世界模型具有反事實(shí)推理的能力,通過理性的想象推斷結(jié)果。這種能力在人類中本能存在,但對(duì)于當(dāng)前的 AI 系統(tǒng)來說仍然是一個(gè)具有挑戰(zhàn)性的任務(wù)。
例如,想象一輛面臨突發(fā)交通事故的自動(dòng)駕駛車輛或者一個(gè)處于新環(huán)境的機(jī)器人。具備反事實(shí)推理能力的世界模型可以模擬它們可能采取的不同行動(dòng),預(yù)測結(jié)果,并選擇最安全的響應(yīng)。這將明顯改善自主智能體系統(tǒng)的決策能力,幫助它們處理新的和復(fù)雜的情景。
挑戰(zhàn)二:模擬物理定律。
雖然 Sora 的視頻生成能力令人印象深刻,但有許多研究者認(rèn)為將其視為世界模型為時(shí)尚早,因?yàn)樗⒉煌耆袷匚锢矶伞,F(xiàn)實(shí)世界要求嚴(yán)格遵守物理定律,如重力、光相互作用和流體動(dòng)力學(xué)。雖然 Sora 在建模運(yùn)動(dòng)方面有所改進(jìn),包括行人和剛體運(yùn)動(dòng),但它仍然在準(zhǔn)確模擬流體和復(fù)雜的物理現(xiàn)象方面表現(xiàn)不佳。僅通過視頻 - 文本對(duì)訓(xùn)練是不足以理解這些復(fù)雜性的,與物理渲染器產(chǎn)生的數(shù)據(jù)聯(lián)合訓(xùn)練可能是一條潛在的解決路徑。
挑戰(zhàn)三:泛化能力。
泛化能力是評(píng)估世界模型性能的關(guān)鍵之一,其強(qiáng)調(diào)的不僅是數(shù)據(jù)內(nèi)插,更重要的是數(shù)據(jù)外推。例如,在自動(dòng)駕駛中,真實(shí)的交通事故或異常的駕駛行為是罕見的事件。那么,學(xué)習(xí)得到的世界模型能否想象這些罕見的駕駛事件呢?這要求模型不僅要超越簡單地記憶訓(xùn)練數(shù)據(jù),而且要發(fā)展出對(duì)駕駛原理的深刻理解。通過從已知數(shù)據(jù)進(jìn)行外推,并模擬各種潛在情況,世界模型可以更好地在現(xiàn)實(shí)世界中進(jìn)行安全的導(dǎo)航。
挑戰(zhàn)四:計(jì)算效率。
視頻生成的效率是限制其大規(guī)模應(yīng)用的關(guān)鍵因素。為了保持視頻生成的一致性,通常采用的時(shí)序一致性模塊會(huì)導(dǎo)致生成時(shí)間大大增加。根據(jù)互聯(lián)網(wǎng)上的新聞和分析,Sora 可能需要大約一個(gè)小時(shí)來生成一分鐘的視頻。盡管在圖像生成領(lǐng)域出現(xiàn)了一系列基于蒸餾的方法,顯著加速了生成速度,但在視頻生成領(lǐng)域的相關(guān)研究仍然非常有限。
挑戰(zhàn)五:性能評(píng)估。
當(dāng)前的世界模型的研究熱點(diǎn)主要集中在生成式模型上,評(píng)估指標(biāo)主要是生成質(zhì)量,如 FID 和 FVD 等。此外,還有一些工作提出了更全面的評(píng)估基準(zhǔn),如 CLIPScore、T2VScore、VBench、EvalCrafter、PEEKABOO 等。然而,單獨(dú)的度量數(shù)字不能全面反映世界模型的預(yù)測合理性。結(jié)合人類反饋可以使得評(píng)估變得更全面,但如何提升其效率和一致性是一個(gè)值得深入研究的方向。