Google DeepMind 發表革命性 AI 模型 Genie 3：輸入文字即時生成可互動的 3D 虛擬世界

Posted by

永遠的真田幸村

–

2025 年 8 月 6 日

Google DeepMind 近日發表了其最新的通用世界模型 (World Model) Genie 3，這項技術的突破在於能夠僅僅透過文字提示，即時生成一個前所未有、可供使用者自由探索與互動的動態 3D 環境。這不僅是 AI 生成技術的一大步，更被視為是通往通用人工智慧 (AGI) 的關鍵基石。

Genie 3 的核心突破：從影片到可互動的世界

先前熱門的新成式 AI 新模型，如 OpenAI 的 Sora，主要專注於從文本生成高品質的影片。而DeepMind 的 Genie 系列從一開始就懷抱著更宏大的目標：創造一個能讓 AI 代理 (agent) 在其中學習和互動的模擬世界。

相較於前代只能生成約 10-20 秒短影片的 Genie 2，Genie 3 大幅提升了產出的範疇，它能夠以每秒 24 frames / 720p 的解析度，生成一個可持續數分鐘互動的虛擬世界。使用者不再只是被動觀看，而是可以像類似 MineCraft 這類沙箱遊戲一樣，在 AI 生成的世界中即時移動、探索，而世界也會對使用者的行為做出即時反應。

Genie 3 的主要特點功能：

即時互動性 (Real-Time Interactivity): 這是 Genie 3 最大的突破。使用者可以即時控制視角，在生成的場景中行走、飛行或游泳，體驗類似沉浸式互動的感覺。

靈活的提示詞生成 (Promptable World Generation): 使用者只需輸入一段描述性文字，例如「一條沿著海岸線的公路，大雨滂沱，海浪拍打著護欄」，Genie 3 就能創造出對應的動態場景。更令人驚豔的是，在互動過程中，還能隨時加入新的指令，如「讓一位具備利劍的英勇騎士騎著白馬出現」，模型會即時修改世界。

時間與空間的一致性 (Consistency Over Time): 模型能夠在幾分鐘的互動中保持世界的連貫性。當你離開一個地點再回來時，場景中的物件，如房屋和樹木，依然會維持原樣。

模擬物理與自然現象 (Modelling Physical Properties): Genie 3 能夠模擬複雜的物理特性，如水波的流動、光影的變化，以及充滿活力的生態系，從動物行為到複雜的植物生命，都能夠生動呈現。

為何世界模型如此重要？

世界模型被認為是 AI 研究的下一個重點領域，能讓 AI 去理解世界運作的因果關係，並模擬其行為。這對於訓練 AI 代理至關重要，因為它提供了一個可以無限生成、充滿變化且絕對安全的虛擬訓練場。AI 可以在這些模擬環境中學習各種技能，從駕駛到複雜的機器人操作，而無需承擔現實世界中的風險與成本。

DeepMind 明確指出，世界模型是實現通用人工智慧 (AGI) 的關鍵墊腳石。

目前的限制與未來展望

儘管 Genie 3 取得了驚人的成就，但 DeepMind 也坦言其仍存在一些限制：

互動時間有限：目前僅能維持數分鐘的連續互動。

動作空間受限：使用者能執行的直接動作範圍仍然有限。

地理精度：還沒辦法用正確的地理精度模擬真實世界的位置。

多代理互動：精準模擬多個獨立代理之間的複雜互動仍是一大挑戰。

儘管如此，Genie 3 的出現不僅可能徹底改變遊戲開發、電影製作和內容創作的未來，未來也是新 AI 技術成長中的重要里程碑呢。

歡迎留下您的想法與意見:

AI, AI Agent, DeepMind, Genie 3, google

永遠的真田幸村

Ivan Lin，有豐富的國際產業研究機構、智庫、科技、平面媒體 (書籍、雜誌、報紙)、電子廣電媒體、影音平台、新媒體、國際媒體經驗，Linux使用者。關心時事、經濟、開源軟體與市場情報，喜閱讀、書寫、電影、音樂、旅遊、歷史，信仰科學。是能善用科技的新舊媒體人、熟悉媒體的科技人、懂得市場分析與產業趨勢的半個法律人、能整合行銷概念的多元內容工作者與創意發想者。

新網站新氣象，會想到緞帶教堂的美好 — 一直很喜歡的緞帶教堂 Ribbon Chapel

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Google DeepMind 發表革命性 AI 模型 Genie 3：輸入文字即時生成可互動的 3D 虛擬世界

Genie 3 的核心突破：從影片到可互動的世界

Genie 3 的主要特點功能：

為何世界模型如此重要？

目前的限制與未來展望

歡迎追蹤我們

最新文章

#hashTags