Google DeepMind 重磅預言:AI 正式進入「經驗紀元」,未來靠互動學習超越人類!

Google 旗下頂尖 AI 研究機構 DeepMind 的兩位傳奇人物,強化學習先驅 Richard S. Sutton 與 AlphaZero 首席研究員 David Silver,近日共同發表論文,宣告人工智慧 AI 正迎來一個全新的時代,一個他們稱之為經驗紀元的時代。他們認為,當前 AI 主流依賴大量靜態人類數據進行訓練的模式已面臨瓶頸,未來 AI 的突破將更多地來自於與環境的直接互動,也就是從自身經驗中學習。這種被稱為經驗流的新途徑,有望讓 AI 自主發現超越人類既有知識的新能力。

Google DeepMind 指出人類數據的天花板

Google DeepMind AI 正式進入經驗紀元

過去幾年,以大型語言模型 LLM 為代表的生成式 AI 取得了巨大成功,它們透過消化海量的網路文本、圖片和程式碼,並藉由人類專家的標註與偏好進行微調,展現了驚人的通用能力。然而,Sutton 和 Silver 這兩位在 AI 領域舉足輕重的學者指出,這種模仿人類的道路雖然有效,卻也設下了一道難以突破的天花板。

問題在於,目前 AI 的學習素材過於受限且靜態。高品質的人類數據,也就是真正能提升頂尖 AI 性能的資料,正迅速枯竭,AI 難以從中學到真正新穎的知識。更關鍵的是,許多 AI 被訓練來迎合人類的預先判斷,例如根據人類偏好來調整回答。這限制了 AI 的探索空間,使其無法發現那些可能不被人類評分者立即欣賞但更優越的策略。此外,目前主流 AI 的互動模式多半是短暫的問答片段,缺乏連續性,資訊無法在不同互動間有效累積,AI 難以像人類一樣進行長期的適應與學習。

AI 如何透過互動學習、超越人類?

Google DeepMind AI 正式進入經驗紀元

為了解決這些限制,Silver 和 Sutton 提出了經驗紀元的核心概念:讓 AI 進入經驗流中學習。這意味著 AI 將不再只是被動地回答單一問題,而是像人類或動物一樣,在一個持續的時間尺度上,透過與環境,包括數位世界或連結真實世界的介面,進行豐富互動來累積經驗。

這個過程的核心是強化學習 RL,正是當年驅動 AlphaGo 和 AlphaZero 在圍棋、西洋棋等領域戰勝人類冠軍的技術。在經驗流中,AI 會自主採取行動,觀察行動在環境中產生的後果,並根據環境提供的根植性回饋來調整策略。這些回饋訊號不再單純依賴人類的即時判斷,而是來自真實世界的客觀指標,例如成本、錯誤率、健康數據、氣候指標、銷售額、實驗結果、使用者滿意度等等。Silver 和 Sutton 強調,世界充滿了這類可被用作獎勵基礎的訊號,只待 AI 去發掘和利用。

AI 可以透過建立世界模型來預測自身行動可能帶來的後果,並在與真實世界的持續互動中不斷修正模型,使其更加貼近現實。這種從經驗中學習、以真實回饋為導向的模式,讓 AI 有機會突破人類既有知識的框架,自主發現全新的策略與見解。DeepMind 的研究人員認為,現有技術基礎,特別是強化學習,已足以開始打造這種新一代的 AI。

- 廣告 - 內文未完請往下捲動 -

AI 正式進入經驗紀元

Google DeepMind ai agent

經驗紀元的 AI 將帶來什麼改變?Silver 和 Sutton 描繪了廣闊的前景。想像一個個人化的健康助理,它能持續數月甚至數年追蹤你的睡眠、飲食和活動數據,根據長期趨勢和你的目標提供真正個人化的建議,而非僅基於短期互動。或者一個教育助理,能長期追蹤學生的學習進度,適應其學習風格。

更令人興奮的是在科學探索領域。一個科學 AI 可以設定遠大目標,例如發現新材料或減緩二氧化碳排放。它可以長期分析真實世界的觀測數據,設計並運行模擬,甚至提出或透過介面執行真實世界的實驗,從實驗結果中學習並迭代,以前所未有的速度推動科學發現。

這種基於經驗的學習和規劃,也可能超越目前流行的思考或推理型 AI,例如 Gemini 或 GPT-4o 的某些能力。後者雖然能模仿人類的思考步驟,但 Silver 和 Sutton 指出,人類的思考方式本身可能就存在偏見或受限於當前的知識體系,就像數百年前的人們用不同的理論解釋物理現象一樣。而經驗紀元的 AI,其推理根植於與現實世界的互動和回饋,更有可能突破這些侷限,發展出真正新穎且有效的解決方案。

當然,這種強大而自主的 AI 也伴隨著新的風險。除了對就業市場的潛在衝擊外,能夠長期自主行動以達成目標的 AI,無疑會減少人類介入和監督的機會,對信任和責任提出了更高要求。脫離人類數據和思維模式,也可能使 AI 的行為更難被理解。但研究者也指出,具備適應能力的經驗型 AI 或許有其安全優勢:它能感知環境變化,包括人類的擔憂,並調整行為,且基於真實回饋的目標修正機制,可能比固定模型更能處理對齊問題。

Google DeepMind 看好經驗數據驅動超智慧

Silver 和 Sutton 強調,雖然生成式 AI 的浪潮一度讓強化學習的焦點有所轉移,但要實現真正的突破,重新擁抱並發展 RL,讓 AI 從自身經驗中學習至關重要。他們預言,由 AI 自主互動產生的經驗數據,無論在規模還是品質上,最終都將超越現有的人類生成數據。

Google DeepMind 的這項宣告,不僅是對 AI 未來發展方向的深刻洞見,也標誌著強化學習可能迎來新的復興。透過演算法的持續進步,結合經驗流的學習範式,AI 將有望在眾多領域解鎖超越任何人類的全新能力,開啟一個真正由經驗驅動的超智慧時代。

延伸閱讀

你可能也喜歡