電子產業(yè)一站式賦能平臺

PCB聯(lián)盟網

搜索
查看: 47|回復: 0
收起左側

自動駕駛將駛向何方?大模型(World Models)自動駕駛綜述

[復制鏈接]
跳轉到指定樓層
樓主
匿名  發(fā)表于 2024-9-5 12:02:00 回帖獎勵 |倒序瀏覽 |閱讀模式
前言自動駕駛系統(tǒng)的開發(fā)是一個技術與哲學的雙重挑戰(zhàn),核心在于模擬人類的直覺推理和常識。盡管機器學習在模式識別上取得了進展,但在復雜情境下仍存在局限。人類決策基于感官感知,但能預見行動結果和預判變化,這是機器難以復制的。
世界模型是解決這一差距的關鍵,它模仿人類的感知和決策,使系統(tǒng)能預測和適應環(huán)境。這一概念從70年代的控制理論發(fā)展而來,與模型預測控制(MPC)緊密相關,并受到心理模型理論的支持。神經網絡的發(fā)展,尤其是循環(huán)神經網絡(RNN),為動態(tài)系統(tǒng)建模提供了新深度,促進了對環(huán)境交互的理解。
2018年,Ha和Schmidhuber提出世界模型,使用混合密度網絡和RNN提取環(huán)境數據模式,標志著自動系統(tǒng)對其操作環(huán)境理解的突破。在自動駕駛領域,世界模型的引入是向數據驅動智能的轉變,解決了數據稀缺問題,增強了模擬環(huán)境中訓練的能力,預示著自動駕駛汽車將具備更復雜的預測和響應能力。

在自動駕駛領域,世界模型的引入標志著向數據驅動智能的關鍵轉變,在這種智能中,預測和模擬未來情景的能力成為安全和效率的基石。數據稀缺性問題,特別是在如鳥瞰圖(BEV)標注等專業(yè)任務中,突顯了世界模型等創(chuàng)新解決方案的實際必要性。通過從歷史數據中生成預測情景,這些模型不僅規(guī)避了數據收集和標注帶來的限制,還增強了在模擬環(huán)境中訓練自動系統(tǒng)的能力,這些環(huán)境可以反映甚至超越現(xiàn)實世界條件的復雜性。這種方法預示著一個新時代的到來,在這個時代,自動駕駛汽車具備反映某種直覺的預測能力,使它們能夠以前所未有的復雜程度導航和響應其環(huán)境。
歡迎加入自動駕駛實戰(zhàn)群

世界模型的發(fā)展世界模型的架構是一個復雜的系統(tǒng),它嘗試模仿人類大腦在認知和決策方面的功能。
世界模型的架構基礎:
  • 感知模塊:作為系統(tǒng)的感官輸入,使用如變分自動編碼器(VAE)、掩碼自動編碼器(MAE)和離散自動編碼器(DAE)等先進技術,將復雜的環(huán)境輸入轉化為易于處理的格式。這個模塊對于準確捕捉環(huán)境特征至關重要。
    記憶模塊:類似于人類的海馬體,負責記錄和存儲信息,包括短期和長期記憶。它通過重放經歷來加強學習,并將過去的經驗應用于未來的決策中,從而加深對環(huán)境動態(tài)的理解。
    控制/行動模塊:負責與環(huán)境的互動,評估當前狀態(tài)和預測,以確定實現(xiàn)目標的最佳行動。這個模塊的獨立訓練允許使用不同的策略,如進化策略,來解決復雜的強化學習問題。
    世界模型模塊:作為系統(tǒng)的核心,負責估計當前狀態(tài)的缺失信息和預測未來狀態(tài)。它通過模擬潛在的未來場景,使系統(tǒng)能夠主動準備和調整策略,體現(xiàn)了人類認知中的預測和適應性思維。


    世界模型的應用:
  • 在處理高維感官輸入時,世界模型利用潛在動態(tài)模型來抽象表示觀測信息,允許在潛在狀態(tài)空間內進行緊湊的前向預測。這種方法利用深度學習和潛在變量模型的進步,實現(xiàn)高效的并行預測。
    世界模型通過潛在變量來表示不確定性,這在處理真實世界動態(tài)的不可預測性時尤為重要。例如,在汽車在交叉路口的不確定性場景中,潛在變量幫助模型設想基于當前狀態(tài)的各種未來可能性。
    世界模型需要在預測的確定性與真實世界現(xiàn)象的固有不確定性之間找到平衡。這種平衡對于模型在復雜環(huán)境中的有效性至關重要,確保了模型能夠靈活應對各種情況。
    這個任務的核心在于在預測的確定性方面與真實世界現(xiàn)象的固有不確定性之間實現(xiàn)平衡,這一平衡對世界模型的有效性至關重要。
    為了解決這一挑戰(zhàn),提出了各種策略,從通過溫度變量引入不確定性到采用結構化框架,如遞歸狀態(tài)空間模型(RSSM)和聯(lián)合嵌入預測架構(JEPA)。這些方法力求微調預測的精度和靈活性之間的平衡。此外,利用Top-k采樣以及從基于CNN的模型過渡到變壓器架構(如變壓器狀態(tài)空間模型(TSSM)或空間時間Patchwise變壓器(S?TPT)),在更好地近似真實世界的復雜性和不確定性方面顯示出潛力。
    特別是在世界模型研究中最常使用的核心結構是RSSM和JEPA:
    遞歸狀態(tài)空間模型(RSSM):
    作為Dreamer系列世界模型中的關鍵模型,旨在完全在潛在空間內進行前向預測。這一創(chuàng)新結構使模型能夠通過潛在狀態(tài)空間進行預測,其中轉移模型內的隨機路徑和確定路徑在成功規(guī)劃中起到關鍵作用。
    圖3展示了跨三個時間步的潛在動態(tài)模型的示意圖。最初觀察兩個時間步,這些模型隨后預測第三個時間步。在這里,模型架構內的隨機變量(圓形)和確定變量(方形)相互作用——實線表示生成過程,虛線表示推理路徑。圖3a中的初始確定推理方法揭示了其因固定性質而難以捕捉多樣化潛在未來的局限性。相反,圖3b中的完全隨機方法由于其固有的不確定性,在時間步之間的信息保留方面提出了挑戰(zhàn)。RSSM的創(chuàng)新在于其戰(zhàn)略性地將狀態(tài)分解為圖3c中的隨機和確定性組件,有效地利用確定元素的預測穩(wěn)定性和隨機元素的適應潛力。這種混合結構確保了強大的學習和預測能力,既能適應現(xiàn)實世界動態(tài)的不確定性,又能保持信息連續(xù)性。通過結合RNN的優(yōu)勢和狀態(tài)空間模型(SSM)的靈活性,RSSM為世界模型建立了一個全面的框架,增強了其在精度和適應性之間的平衡。

    聯(lián)合嵌入預測架構(JEPA):
    在預測建模中標志著范式轉變,專注于表示空間而非直接、詳細的預測。通過雙編碼器將輸入(x)和目標(y)抽象為表示(sx和sy),并利用潛在變量(z)進行預測,JEPA在效率和準確性上實現(xiàn)了顯著飛躍。該模型在過濾噪音和無關信息方面表現(xiàn)出色,專注于預測任務的本質。戰(zhàn)略性地使用潛在變量(z)管理不確定性,進一步提高了模型的專注力,使其能夠以更高的精度預測抽象結果。通過優(yōu)先考慮相關特征并接受預測任務的內在不確定性,JEPA不僅簡化了預測過程,還確保了結果既相關又可靠,為復雜環(huán)境中的世界模型的下一步發(fā)展鋪平了道路。
    這些策略共同增強了世界模型在高維和動態(tài)場景中的適應性和精度,使其能夠更好地反映真實世界的復雜性和不可預測性。這種多樣化的策略融合通過先進的神經網絡架構和創(chuàng)新的潛在變量模型為世界模型提供了強大的基礎,提升了其在模擬和決策中的表現(xiàn)力。

    世界模型在不同研究中的應用自動駕駛:
    在自動駕駛領域,世界模型通過模擬車輛在各種交通環(huán)境中的行為和互動來增強決策和規(guī)劃能力。它們能夠預測其他車輛、行人和動態(tài)環(huán)境變化,從而幫助自主系統(tǒng)做出更安全、更高效的駕駛決策。例如,在無人駕駛汽車項目中,世界模型可以預測交通流量、路況變化以及潛在的風險因素,使車輛能夠提前做出反應,避免事故和優(yōu)化行駛路徑。
    機器人控制:
    在機器人控制中,世界模型通過模擬機器人在不同任務和環(huán)境中的行為,增強其自主性和適應能力。通過感知和記憶模塊,機器人能夠學習和記住復雜的任務流程,并通過預測模塊預見潛在的任務挑戰(zhàn),從而調整其行動策略。例如,在倉庫管理中,機器人可以通過世界模型優(yōu)化貨物搬運路徑,提高工作效率和準確性。
    游戲AI:
    在游戲AI開發(fā)中,世界模型通過模擬復雜的游戲環(huán)境和角色行為,提升了游戲的智能和互動性。通過感知和預測模塊,游戲AI能夠實時分析玩家的行為和決策,并相應調整游戲策略,提供更具挑戰(zhàn)性和沉浸感的游戲體驗。例如,在策略游戲中,世界模型可以預測玩家的下一步行動,并相應調整游戲難度和資源配置,提升游戲的娛樂性和可玩性。
    醫(yī)療診斷:
    在醫(yī)療診斷領域,世界模型通過模擬患者的病情變化和治療效果,輔助醫(yī)生做出更準確的診斷和治療決策。通過感知和記憶模塊,模型能夠記錄和分析大量患者數據,識別潛在的疾病模式和風險因素,并通過預測模塊預見疾病的發(fā)展趨勢,從而優(yōu)化治療方案。例如,在癌癥治療中,世界模型可以模擬不同治療方法的效果,幫助醫(yī)生選擇最有效的治療方案,提高患者的生存率和生活質量。


    世界模型的未來方向和挑戰(zhàn)盡管世界模型在多個領域表現(xiàn)出巨大的潛力,但其發(fā)展和應用仍面臨一系列挑戰(zhàn)和未來方向:
    數據的多樣性和質量:
    世界模型依賴大量高質量的數據進行訓練和測試。然而,獲取和處理這些數據往往需要耗費大量時間和資源。未來的發(fā)展需要在數據收集、標注和處理方面取得突破,確保模型能夠從多樣化和高質量的數據中學習,提升其預測和決策能力。
    模型的可解釋性:
    世界模型的復雜性使其決策過程難以解釋和理解。這在某些應用場景(如醫(yī)療診斷和自動駕駛)中可能帶來潛在風險。未來的研究需要致力于提高模型的可解釋性,開發(fā)透明和可理解的決策機制,使用戶能夠信任和理解模型的行為。
    計算資源的需求:
    訓練和運行世界模型需要大量的計算資源,特別是在處理高維數據和復雜場景時。未來的發(fā)展需要在硬件和算法方面取得進展,優(yōu)化計算效率和資源利用,使世界模型能夠在有限的計算資源下高效運行。
    跨領域的應用:
    世界模型的潛力不僅限于當前的應用領域。未來的研究應探索其在更多領域中的應用,如教育、金融和環(huán)境保護等,發(fā)揮其在復雜決策和預測中的優(yōu)勢,為更多行業(yè)帶來創(chuàng)新和變革。
    世界模型在自動駕駛中的應用作為世界模型應用的新興前沿,自動駕駛領域在場景生成和規(guī)劃與控制機制方面展現(xiàn)了獨特的挑戰(zhàn)和機遇,這些領域正是探索和創(chuàng)新的沃土。盡管興趣日益增加,世界模型在自動駕駛中的整合主要集中在場景生成和規(guī)劃與控制機制。

    A. 駕駛場景生成在自動駕駛數據獲取方面面臨著重大挑戰(zhàn),包括高昂的數據收集和標注成本、法律限制以及安全考量。世界模型通過自監(jiān)督學習范式,提供了一種有前途的解決方案,可以從大量未標記數據中提取有價值的見解,從而以成本效益提升模型性能。世界模型在駕駛場景生成中的應用尤為值得注意,因為它能夠創(chuàng)建多樣化和逼真的駕駛環(huán)境。這種能力顯著豐富了訓練數據集,使自主系統(tǒng)具備在稀有和復雜駕駛場景中導航的穩(wěn)健性。
    GAIA-1是一個新穎的自主生成AI模型,能夠使用視頻、文本和動作輸入生成逼真的駕駛視頻。GAIA-1在英國城市的實際駕駛數據上進行了廣泛訓練,學習并理解了一些真實世界的規(guī)則和關鍵概念,包括不同類型的車輛、行人、建筑物和基礎設施。它可以基于幾秒鐘的視頻輸入預測和生成后續(xù)的駕駛場景。值得注意的是,生成的未來駕駛場景并不緊密依賴于提示視頻,而是基于GAIA-1對世界規(guī)則的理解。GAIA-1核心采用自回歸變壓器網絡,基于輸入圖像、文本和動作令牌預測即將發(fā)生的圖像令牌,然后將這些預測解碼回像素空間。GAIA-1可以預測多個潛在的未來,并基于提示生成多樣的視頻或特定的駕駛場景(例如改變天氣、場景、交通參與者、車輛動作),甚至包括其訓練集中不存在的動作和場景(例如強行進入人行道)。這表明其能夠理解和推斷訓練集中未出現(xiàn)的駕駛概念,也證明了其反事實推理能力。在現(xiàn)實世界中,這種駕駛行為由于其風險性難以獲取數據。駕駛場景生成允許模擬測試,豐富數據構成,增強系統(tǒng)在復雜場景中的能力,并更好地評估現(xiàn)有的駕駛模型。此外,GAIA-1生成連貫的動作,有效捕捉3D幾何結構的透視影響,展示了其對上下文信息和物理規(guī)則的理解。結合其反事實推理能力,可以說GAIA-1在自動駕駛世界模型中達到了高水平,無論在抽象概念的理解還是因果推理方面。
    DriveDreamer也專注于駕駛場景生成,不同于GAIA-1,它在nuScenes數據集上進行了訓練。其模型輸入包括更多元素,如高清地圖和3D框,允許更精確地控制駕駛場景生成和更深入的理解,從而提高視頻生成質量。此外,DriveDreamer可以生成未來駕駛動作及相應的預測場景,幫助決策。
    ADriver-I使用當前的視頻幀和歷史的視覺-動作對作為多模態(tài)大型語言模型(MLLM和視頻潛在擴散模型(VDM)的輸入。MLLM以自回歸方式輸出控制信號,作為VDM預測后續(xù)視頻輸出的提示。通過連續(xù)的預測周期,ADriver-I在預測世界中實現(xiàn)了無限駕駛。在ADriver-I中,世界模型與MLLM的結合顯著提高了預測和決策的可解釋性,也表明了將世界模型作為基礎模型與其他模型結合的可行性。
    借鑒大型語言模型的成功,WorldDreamer將世界建模視為無監(jiān)督的視覺序列建模挑戰(zhàn)。它利用STPT集中注意力于時空窗口內的局部補丁。這種聚焦促進了視覺信號的動態(tài)學習,加速了訓練過程的收斂。盡管WorldDreamer是通用的視頻生成模型,但它在生成自動駕駛視頻方面表現(xiàn)出色。除了視覺信息,駕駛場景還包括大量重要的物理數據。MUVO利用世界模型框架進行駕駛場景的預測和生成,結合了激光雷達點云和視覺輸入來預測視頻、點云和未來駕駛場景的3D占用網格。這種綜合方法顯著提高了預測和生成結果的質量。尤其是3D占用網格的結果可以直接應用于下游任務。更進一步,OccWorld和Think2Drive直接利用3D占用信息作為系統(tǒng)輸入來預測周圍環(huán)境的演變并規(guī)劃自動駕駛車輛的動作。顯然,隨著研究的進展,自動駕駛領域的場景生成世界模型研究逐漸朝著多模態(tài)方法發(fā)展。世界模型在處理多模態(tài)信息方面展示了多功能性。
    B. 規(guī)劃與控制除了場景生成,世界模型在駕駛情境中的學習、潛在未來的評估以及規(guī)劃與控制策略的改進中也起著關鍵作用。例如,基于模型的模仿學習(MILE)采用基于模型的模仿學習方法,從離線數據集中聯(lián)合學習動態(tài)模型和駕駛行為。MILE使用“廣義推理算法”進行理性和可視化的未來駕駛環(huán)境的想象和預測,通過想象來彌補感知信息的缺失。這種能力使得未來行動的規(guī)劃成為可能,允許自動駕駛車輛在沒有高清地圖的情況下操作。在CARLA模擬器中的不熟悉測試場景中,MILE顯著超越了最先進的模型,將駕駛評分從46提高到61(相比專家數據評分為88)。MILE的特點是長期的時間跨度和高度多樣化的未來預測。通過對預測的未來狀態(tài)進行解碼,MILE在各種場景中展示了穩(wěn)定的駕駛能力。
    SEM2在RSSM的基礎上,介紹了語義掩碼世界模型,以提高端到端自動駕駛的采樣效率和魯棒性。作者認為,世界模型的潛在狀態(tài)包含過多與任務無關的信息,影響了采樣效率和系統(tǒng)的魯棒性。此外,由于訓練數據的不平衡,世界模型難以處理意外情況。為解決這些問題,引入了一個簽名過濾器來提取關鍵任務特征,使用過濾后的特征重建語義掩碼。對于數據不平衡,使用采樣器平衡數據分布。在每批訓練中,均勻地添加來自各種場景的樣本,以實現(xiàn)訓練樣本的均勻和平衡分布,有利于泛化和解決極端情況。在CARLA中訓練和測試后,SEM2的性能相比DreamerV2顯著提升。
    考慮到大多數自動駕駛車輛通常有多個攝像頭,多視角建模也是世界模型的關鍵方面。Drive-WM是第一個設計用于增強端到端自動駕駛規(guī)劃安全性的多視角世界模型。Drive-WM通過多視角和時間建模,共同生成多個視角的幀,然后從相鄰視角預測中間視角,顯著提高了多個視角之間的一致性。此外,Drive-WM引入了一個簡單統(tǒng)一的條件接口,靈活應用圖像、動作、文本和其他條件,簡化了條件生成過程。在六個視角的nuScenes數據集上訓練和驗證,Drive-WM通過采樣預測的候選軌跡并使用基于圖像的獎勵函數選擇最佳軌跡。此外,與GAIA-1一致,Drive-WM在非可行駛區(qū)域的導航能力展示了世界模型在處理域外情況方面的理解和潛力。此外,借鑒Alberto Elfes的開創(chuàng)性工作,UniWorld引入了一種創(chuàng)新方法,通過使用多幀點云融合作為生成4D占用標簽的真值。該方法考慮了來自多攝像機系統(tǒng)的圖像中的時空相關性。通過利用未標記的圖像-激光雷達對,UniWorld進行了世界模型的預訓練,顯著增強了對環(huán)境動態(tài)的理解。在nuScenes數據集上測試時,UniWorld在運動預測和語義場景完成等任務的IoU方面相比單目預訓練方法表現(xiàn)出顯著改進。
    TrafficBots也是一個端到端的自動駕駛模型,更強調場景中個體代理的動作預測。以每個代理的目標地作為條件,TrafficBots采用條件變分自編碼器(CVAE)學習每個代理的獨特個性,從而促進動作預測從鳥瞰圖(BEV)的角度進行。相比替代方法,TrafficBots具有更快的操作速度,并且可以擴展以容納更多代理。盡管其性能可能尚未達到最先進的開放循環(huán)策略,但TrafficBots展示了閉環(huán)
    測試中的顯著潛力,特別是在駕駛場景復雜且包括其他智能體時。
    結合這些應用案例,可以看出,世界模型在自動駕駛領域正處于快速發(fā)展階段。通過整合多模態(tài)信息和增強模型的泛化能力,世界模型在豐富自動駕駛系統(tǒng)的訓練數據、改進決策和規(guī)劃、提高系統(tǒng)魯棒性等方面展現(xiàn)出廣闊的應用前景。然而,仍有許多挑戰(zhàn)需要克服,包括處理復雜場景中的意外情況、多智能體的協(xié)調等。未來的研究和應用將進一步推動世界模型在自動駕駛領域的發(fā)展。

    挑戰(zhàn)與未來展望A. 技術與計算挑戰(zhàn)1. 從模擬到現(xiàn)實世界的泛化:
    模擬訓練環(huán)境與現(xiàn)實世界條件的多樣性之間的差異,構成了自動駕駛技術發(fā)展的關鍵瓶頸。盡管當前的模擬平臺已經相當先進,但它們仍無法完美再現(xiàn)現(xiàn)實世界場景的不可預測性和變異性。
    2. 長期可擴展記憶集成:
    在賦予世界模型以長期、可擴展記憶以反映人類認知過程的復雜性方面,依然存在巨大的挑戰(zhàn)。當前的模型面臨諸如梯度消失和災難性遺忘等問題,這嚴重限制了它們的長期記憶能力。
    3. 理論與硬件的突破:
    世界模型在生成任務中表現(xiàn)出色,但在純粹的預測任務(如運動預測)方面仍顯不足。這部分是因為這些模型尚未完美地模擬現(xiàn)實世界的演變,包括確定性與隨機性之間的平衡。
    B. 倫理與安全挑戰(zhàn)1. 決策責任:
    確保車輛自主決策框架中的責任成為首要的倫理問題,迫切需要開發(fā)具有前所未有透明度的系統(tǒng)。
    2. 隱私與數據完整性:
    自動駕駛技術依賴大量數據進行操作和持續(xù)改進,這帶來了重大的隱私和數據安全問題。對于開發(fā)自動駕駛系統(tǒng)的公司而言,收集到的車輛相關數據,包括乘客信息等,都需要得到妥善保護。
    3. 責任和標準:
    隨著世界模型在自動駕駛系統(tǒng)中支持或接管駕駛任務,人類的責任不是減少或消除,而是重新分配給參與創(chuàng)建、部署和使用這些系統(tǒng)的個人和組織。這種轉變要求參與者提出新的需求,呼吁新的研究和政策來管理這一轉變。
    C. 未來展望1. 橋接人類直覺與AI精度:
    一個突破性的前景是世界模型向促進自動駕駛汽車內認知協(xié)同駕駛框架的發(fā)展。與傳統(tǒng)的完全依賴預定義算法和傳感器輸入進行決策的自動駕駛系統(tǒng)不同,認知協(xié)同駕駛旨在融合人類直覺與AI的精確度。
    2. 與城市生態(tài)系統(tǒng)的協(xié)調:
    另一個愿景是世界模型在將自動駕駛汽車轉變?yōu)樯鷳B(tài)工程代理方面的作用,通過適應性、響應性的行為來與城市生態(tài)系統(tǒng)和諧共處,促進環(huán)境可持續(xù)性。
    總結:世界模型在自動駕駛技術中的應用具有革命性的潛力,它們通過提高車輛的預測、模擬和決策能力,對推動汽車自主性的提升至關重要。盡管目前已經有了顯著的發(fā)展,但要實現(xiàn)這些模型在實際場景中的應用,我們仍然面臨著一些挑戰(zhàn),包括如何整合長期記憶、將模型從模擬環(huán)境泛化到現(xiàn)實世界,以及如何處理與自動駕駛相關的倫理問題。解決這些問題需要跨學科的合作,包括人工智能的最新研究、建立倫理框架和開發(fā)創(chuàng)新的計算技術。
    展望未來,隨著世界模型的不斷進步,我們預期它們不僅會推動自動駕駛技術的發(fā)展,還將改變我們與自動化系統(tǒng)的互動方式。這進一步強調了持續(xù)的跨領域研究和合作的重要性,以確保這些技術的安全、有效和道德發(fā)展。
    引用CVPR2024文章:
    World Models for Autonomous Driving:
    An Initial Survey
    最后別忘了,幫忙點“在看”。  
    您的點贊,在看,是我創(chuàng)作的動力。

    AiFighing是全網第一且唯一分享自動駕駛實戰(zhàn),以代碼、項目的形式講解自動駕駛感知方向的關鍵技術,從算法訓練到模型部署。
  • 本帖子中包含更多資源

    您需要 登錄 才可以下載或查看,沒有賬號?立即注冊

    x
    回復

    使用道具

    發(fā)表回復

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關閉

    站長推薦上一條 /1 下一條


    聯(lián)系客服 關注微信 下載APP 返回頂部 返回列表