人類可以在腦海中假想一個想象中的天下,以猜測不同的舉措約莫招致不同的后果。受人類智能這方面的啟示,天下模子被計劃用于籠統化實際天下的動態,并提供這種“假如……會怎樣”的猜測。
因此,具身智能體可以與天下模子舉行交互,而不是直接與實際天下情況交互,以天生模仿數據,這些數據可以用于種種卑劣職責,包含反內幕猜測、離線戰略評價、離線強化學習。
天下模子在具身情況的決定中起著至關緊張的作用,使得在實際天下中本錢熱血的探究成為約莫。為了促進好效的決定,天下模子必需具有強壯的泛化才能,以支持分布外(OOD)地區的想象,并提供可靠的不確定性估測來評價模仿體驗的可信度,這兩者都對之前的可擴展辦法提出了嚴重挑唆。
克日,來自南京大學、南棲仙策等機構的研討者在論文中引入了WHALE(World models with beHavior-conditioning and retrAcing-rollout LEarning),這是一個用于學習可泛化天下模子的框架,由兩種可以與任何神經網絡架構廣泛團結的緊張武藝構成。
在確定戰略分布差別是泛化偏差的主要泉源的基本上,研討者引入了一種舉動—條件(behavior-conditioning)武藝來加強天下模子的泛化才能,該武藝創建在戰略條件模子學習的看法之上,旨在使模子可以主動順應不同的舉動,以減小分布偏移惹起的外推偏差。別的,研討者還提出了一種簡便而好效的武藝,稱為retracing-rollout,以便對模子想象舉行好效的不確定性估測,作為一種即插即用的處理方案,可以好效地使用于種種實行職責中的末了實行器姿勢控制,而無需對練習歷程舉行任何變動。
經過整合WHALE的這兩種武藝,研討者提出了WHALE-ST,這是一種可擴展的基于時空transformer的天下模子,旨在完成更好效的決定。研討者進一步提出了WHALE-X,這是一個在970K機器人演示上預練習的414M參數天下模子。最初,研討者舉行了多量的實行,以證實WHALE-ST和WHALE-X在模仿和實際天下職責中的出色可擴展性與泛化性,突出了它們在加強決定方面的后果。
為了評價WHALE-X在實踐物理情況中的泛化才能,研討團隊在ARX5機器人上舉行了全盤實行。與預練習數據不同,評價職責調停了攝像機角度和背景等,增長了對天下模子的挑唆。他們搜集了每個職責60條軌跡的數據集用于微調,職責包含開箱、推盤、投球和挪動瓶子,還計劃了多個模子從將交往過的職責來測試模子的視覺、活動和職責泛化才能。
后果體現,WHALE-X在真實天下中展現出分明的上風:與沒有舉動—條件的模子比擬,WHALEX的一律性提高了63%,標明該機制明顯提升了OOD泛化才能;在97萬個樣本上舉行預練習的WHALE-X,比從零開頭練習的模子具有更高的一律性,凸顯了大范圍互聯網數據預練習的上風;增長模子參數可以提升天下模子的泛化才能,WHALE-X-base(203M)動態模子在三個未見職責中的一律性比率是77M版本的3倍。別的,視頻天生質量與一律性的后果一律。經過舉動—條件戰略、大范圍預練習數據集和擴展模子參數,三種戰略團結,明顯提高了模子的OOD泛化才能,尤其是在天生高質量視頻方面。 (人民郵電報 陳陳 佳琪)
泉源: 人民郵電報
版權聲明:本文來自互聯網整理發布,如有侵權,聯系刪除
原文鏈接:http://www.freetextsend.comhttp://www.freetextsend.com/qingganjiaoliu/56029.html