Google DeepMind 近日發表了其最新的通用世界模型 (World Model) Genie 3,這項技術的突破在於能夠僅僅透過文字提示,即時生成一個前所未有、可供使用者自由探索與互動的動態 3D 環境。這不僅是 AI 生成技術的一大步,更被視為是通往通用人工智慧 (AGI) 的關鍵基石。
Genie 3 的核心突破:從影片到可互動的世界
先前熱門的新成式 AI 新模型,如 OpenAI 的 Sora,主要專注於從文本生成高品質的影片。而DeepMind 的 Genie 系列從一開始就懷抱著更宏大的目標:創造一個能讓 AI 代理 (agent) 在其中學習和互動的模擬世界。
相較於前代只能生成約 10-20 秒短影片的 Genie 2,Genie 3 大幅提升了產出的範疇,它能夠以每秒 24 frames / 720p 的解析度,生成一個可持續數分鐘互動的虛擬世界。使用者不再只是被動觀看,而是可以像類似 MineCraft 這類沙箱遊戲一樣,在 AI 生成的世界中即時移動、探索,而世界也會對使用者的行為做出即時反應。
Genie 3 的主要特點功能:
即時互動性 (Real-Time Interactivity): 這是 Genie 3 最大的突破。使用者可以即時控制視角,在生成的場景中行走、飛行或游泳,體驗類似沉浸式互動的感覺。
靈活的提示詞生成 (Promptable World Generation): 使用者只需輸入一段描述性文字,例如「一條沿著海岸線的公路,大雨滂沱,海浪拍打著護欄」,Genie 3 就能創造出對應的動態場景。更令人驚豔的是,在互動過程中,還能隨時加入新的指令,如「讓一位具備利劍的英勇騎士騎著白馬出現」,模型會即時修改世界。
時間與空間的一致性 (Consistency Over Time): 模型能夠在幾分鐘的互動中保持世界的連貫性。當你離開一個地點再回來時,場景中的物件,如房屋和樹木,依然會維持原樣。
模擬物理與自然現象 (Modelling Physical Properties): Genie 3 能夠模擬複雜的物理特性,如水波的流動、光影的變化,以及充滿活力的生態系,從動物行為到複雜的植物生命,都能夠生動呈現。
為何世界模型如此重要?
世界模型被認為是 AI 研究的下一個重點領域,能讓 AI 去理解世界運作的因果關係,並模擬其行為。這對於訓練 AI 代理至關重要,因為它提供了一個可以無限生成、充滿變化且絕對安全的虛擬訓練場。AI 可以在這些模擬環境中學習各種技能,從駕駛到複雜的機器人操作,而無需承擔現實世界中的風險與成本。
DeepMind 明確指出,世界模型是實現通用人工智慧 (AGI) 的關鍵墊腳石。
目前的限制與未來展望
儘管 Genie 3 取得了驚人的成就,但 DeepMind 也坦言其仍存在一些限制:
互動時間有限: 目前僅能維持數分鐘的連續互動。
動作空間受限: 使用者能執行的直接動作範圍仍然有限。
地理精度: 還沒辦法用正確的地理精度模擬真實世界的位置。
多代理互動: 精準模擬多個獨立代理之間的複雜互動仍是一大挑戰。
儘管如此,Genie 3 的出現不僅可能徹底改變遊戲開發、電影製作和內容創作的未來,未來也是新 AI 技術成長中的重要里程碑呢。