OpenAI 全新模型 ChatGPT o3 與 o4-mini,標榜更強推理、視覺能力與工具整合!

人工智慧領域的領導者 OpenAI 於美國時間 4 月 16 日再次投下震撼彈,正式發表了其 o 系列模型的最新成員:OpenAI o3 與 o4-mini。這兩款模型被譽為 OpenAI 至今最聰明、最強大的 AI 模型,特別強化了推理能力,也就是在回答前能進行更長時間、更深入的思考。更重要的是,它們首次實現了在其思考鏈中整合運用 ChatGPT 內建的所有工具,包含網路搜尋、Python 數據分析、深度視覺解讀甚至圖像生成,標誌著 ChatGPT 向更具代理人能力的 AI 邁出了關鍵一步。

這兩款新模型的推出,不僅代表了 OpenAI 在技術上的再次突破,也反映了全球 AI 競賽的白熱化。在 Google、Meta、Anthropic 等對手急起直追,甚至在部分領域超越 OpenAI 的壓力下,o3 與 o4-mini 的問世,顯然是 OpenAI 力求鞏固其領先地位的重要舉措。

ChatGPT o3 與 o4-mini 的核心升級

OpenAI 的 o 系列模型,從最初的 o1 開始,就強調推理能力,意即模型被訓練成在生成回應前,會進行更長的內部思考鏈。最新的 o3 與 o4-mini 在此基礎上再次進化。

OpenAI 模型基準測試比較
基準測試(指標) o1 o3-mini o3 o4-mini
AIME 2024 (數學競賽 – 準確率 %) 74.3 87.3 91.6(無工具) 93.4(無工具)
AIME 2025 (數學競賽 – 準確率 %) 79.2 86.5 88.9(無工具) 92.7(無工具)
Codeforces (程式競賽 – ELO 評分) 1891 2073 2706(含終端) 2719(含終端)

OpenAI o3:當前最強推理大腦

  • 頂尖性能: OpenAI 目前最強大、最先進的推理模型。
  • 多領域突破: 在程式編寫、數學、科學及視覺感知等領域樹立新標竿 (SOTA)。
  • 複雜任務首選: 特別擅長處理需要多面向分析、答案不明顯的複雜問題。
  • 卓越視覺分析: 強大的圖像、圖表、圖形分析能力,首次實現「用圖思考」。
  • 錯誤率降低: 在困難的真實任務中,重大錯誤比 o1 減少 20%。
  • 工具整合大師: 可主動、靈活地調用 ChatGPT 內所有工具(網路搜尋、Python、圖像處理等)。
  • 專家好評: 被讚譽為嚴謹的「思考夥伴」,尤其在專業領域的假設生成與評估上表現突出。

o3 被定位為 OpenAI 目前最強大的推理模型,在程式編寫、數學、科學、視覺感知等多個領域都刷新了技術前沿。根據 OpenAI 公布的資料,o3 在多項學術基準測試中取得了頂尖成績(SOTA),例如 Codeforces、SWE-bench(無需客製化支架)和 MMMU。這使其特別適合處理需要多面向分析、答案並非顯而易見的複雜查詢。

值得注意的是,o3 在視覺任務上表現尤為突出,能深入分析圖像、圖表和圖形。外部專家的評估顯示,在處理困難的真實世界任務時,o3 的重大錯誤率比前代 o1 降低了 20%,尤其在程式設計、商業諮詢和創意發想等領域表現更佳。早期測試者稱讚其作為「思考夥伴」的分析嚴謹性,以及生成和批判性評估新假設的能力,特別是在生物學、數學和工程學方面。

OpenAI o4-mini:兼顧速度與成本效益

  • 高效推理: 針對速度和成本效益優化的小型推理模型。
  • 性能驚艷: 體積雖小,但在數學、程式編寫和視覺任務上表現出色(例如 AIME 競賽奪冠)。
  • 超越前代: 在非 STEM 任務及數據科學領域表現優於 o3-mini。
  • 高用量首選: 因效率更高,支援比 o3 更大的使用量限制,適合高吞吐量應用。
  • 視覺能力: 同樣具備「用圖思考」的能力,能處理視覺資訊。
  • 工具整合: 可運用 ChatGPT 內所有工具進行推理和問題解決。
  • 更佳互動: 提升了指令遵循能力和回應的實用性、可驗證性。

相較於追求極致性能的 o3,o4-mini 則是一款針對速度和成本效益進行優化的小型模型。儘管體積較小,o4-mini 卻展現了驚人的性能,尤其在數學、程式編寫和視覺任務方面。它在 AIME 2024 和 2025 數學競賽中取得了所有受測模型中的最佳表現。專家評估也指出,它在非 STEM 任務以及數據科學等領域的表現也優於其前身 o3-mini。

由於其高效率,o4-mini 支援比 o3 更高的使用量限制,使其成為需要大量、高吞吐量推理任務的理想選擇,特別是那些能從推理中受益的問題。

此外,相較於過去的模型,o3 與 o4-mini 在指令遵循、回應的實用性與可驗證性上都有所提升,對話也感覺更自然流暢,因為它們能參考記憶和過去的對話,提供更個人化和相關的回應。

AI 不只看懂,更能用圖思考

本次更新引人注目的焦點之一,是 o3 與 o4-mini 首次實現了用圖像思考的能力。過去的 AI 模型僅能看見圖像,而新模型則能將圖像直接整合進其思考鏈中。

這意味著模型不再只是被動接收視覺資訊,而是能主動地在其推理過程中運用和操作圖像。透過內建工具,模型可以自動裁切、縮放、旋轉甚至強化使用者上傳的圖像,即使是模糊、顛倒或低品質的照片,也能從中提取洞見。例如,使用者可以上傳手寫筆記、教科書圖表或隨手畫的草圖,模型都能進行解讀分析;遇到程式碼的錯誤截圖,模型也能協助找出根本原因。

這種將視覺與文本推理無縫融合的能力,讓模型得以解決過去無法處理的複雜問題,並在多項多模態基準測試中取得頂尖成績,例如 MMMU(大學程度視覺解題)、MathVista(視覺數學推理)和 CharXiv(科學圖表推理)。在 V* 視覺搜尋基準測試中,o3 的準確率甚至達到了 95.7%,幾乎解決了該基準測試。

- 廣告 - 內文未完請往下捲動 -

ChatGPT 邁向代理人式 AI

o3 與 o4-mini 的另一大突破是能夠在其推理過程中,主動且策略性地調用 ChatGPT 內建的各種工具,以及透過 API 接入的自訂工具(Function Calling)。這包括:

  1. 網路搜尋: 獲取超出模型內建知識範圍的最新資訊。
  2. Python 程式執行: 進行數據分析、建立預測模型、生成圖表。
  3. 圖像處理與生成: 分析、操作甚至創造圖像。
  4. 檔案分析: 解讀上傳的檔案內容。

模型被訓練成能判斷「何時」以及「如何」使用這些工具,以最適合的輸出格式,在一分鐘內產生詳細且深思熟慮的答案。例如,當被問及「加州今年的夏季能源使用量與去年相比如何?」時,模型可能會先搜尋公共事業數據,接著編寫 Python 程式碼建立預測模型,生成圖表,最後解釋預測背後的關鍵因素,將多個工具調用串連起來。這種靈活的策略讓模型能更有效地處理需要多步驟工作流程、整合多種資訊來源的複雜任務,展現出更強的代理人(Agentic)特性,能更獨立地代表使用者執行任務。

為了支援開發者利用這種能力,OpenAI 也推出了一個名為 Codex CLI 的輕量級程式碼代理工具,可以直接在終端機運行,並充分利用 o3、o4-mini 等模型的推理能力。Codex CLI 已在 GitHub 開源,OpenAI 更投入 100 萬美元的獎勵計畫,鼓勵開發者利用 Codex CLI 和 OpenAI 模型進行專案開發。

安全性、成本與未來展望

OpenAI new models ChatGPT o3 and o4-mini

隨著模型能力的提升,安全性也成為 OpenAI 強調的重點。針對 o3 和 o4-mini,OpenAI 重建了安全訓練數據,加入了針對生物風險、惡意軟體生成、越獄攻擊等領域的新拒絕提示詞。同時,也開發了系統級的緩解措施,利用一個由人類編寫規則、可解釋的 LLM 監控器來標記高風險提示。根據 OpenAI 的預備框架評估,o3 和 o4-mini 在生物化學、網路安全和 AI 自我改進三個領域的能力均低於高風險閾值。

在成本效益方面,OpenAI 指出,儘管 o3 與 o4-mini 性能更強,但通常比其前代 o1 和 o3-mini 更具效率。對於開發者而言,o3 的 API 定價為每百萬輸入 token 10 美元,輸出 40 美元;o4-mini 的定價則與 o3-mini 相同,為每百萬輸入 token 1.1 美元,輸出 4.4 美元。相對較低的定價策略,顯然是為了在競爭激烈的市場中吸引更多開發者採用。

目前,ChatGPT Plus、Pro 和 Team 用戶已可開始使用 o3、o4-mini 及 o4-mini-high,企業版和教育版用戶將在一周後獲得訪問權限。免費用戶也可選擇性地試用 o4-mini。開發者則可透過 Chat Completions API 和 Responses API 使用這兩款新模型。OpenAI 也預告將在數週內推出性能更強的 o3-pro 版本,專供 Pro 用戶使用。

展望未來,OpenAI 表示這次的更新反映了其模型發展的方向:將 o 系列的專業推理能力與 GPT 系列更自然的對話能力和工具使用能力相融合。最終目標是開發出能夠支援流暢自然對話,同時具備主動工具使用和高級問題解決能力的未來模型,外界普遍認為這指向了備受期待的 GPT-5。這次 o3 與 o4-mini 的推出,可視為邁向下一代整合型 AI 模型的重要里程碑。

延伸閱讀

你可能也喜歡