在 AI 發展進入關鍵時刻,產業界正面臨前所未有的挑戰。據Techcrunch和其他多家媒體報導指出,AI 領導企業 OpenAI 的最新旗艦模型「Orion」在性能提升方面遭遇瓶頸,特別是在程式編寫等專業領域的表現不如預期,這讓業界開始重新思考 AI 發展的未來方向。
OpenAI 的技術困境
相較於 GPT-3 到 GPT-4 的跨越式進展,Orion 的性能提升幅度明顯放緩。知情人士透露,OpenAI 已著手組建專門的基礎研究團隊,探索在優質訓練數據日益稀缺的情況下,如何突破現有技術限制。該公司正考慮採用 AI 生成的合成數據進行訓練,並加強後期優化工作。
是否會有新的AI測試標準?
隨著 AI 技術快速演進,傳統的評測方式如 Hellaswag 和 MMLU 等,已難以全面評估新一代 AI 模型的實力。Meta 生成式 AI 部門負責人 Ahmad Al-Dahle 指出:「AI 技術發展速度遠超過現有評測體系的更新速度。」
為因應這一挑戰,Meta、微軟、Anthropic 等科技巨頭紛紛開發專屬的內部測試標準,著重評估 AI 在推理、規劃和自主執行等複雜任務上的表現。然而,這種做法也引發了業界對技術評估透明度的擔憂。
同時,外部組織開始投入新型測試基準的研發。其中Scale AI 與 Center for AI Safety 的 Dan Hendrycks 攜手推出的「Humanity's Last Exam」專案,匯集專家設計的高難度問題,專門測試 AI 的抽象推理能力。另一個備受矚目的「FrontierMath」測試,由數學專家主導設計,目前最先進的 AI 模型在該測試中的解題率僅有差強人意的 2% 以下。
產業影響與未來展望
短期而言,OpenAI 的技術瓶頸可能影響其產品推出節奏和市場競爭力。而測試標準的多元化,則可能加大企業在選擇 AI 技術時的決策難度。
從長遠來看,如果業界能夠克服目前的技術瓶頸,將有助於 AI 在各領域實現突破。統一的評測標準也將變得更加重要,這不僅能促進技術評估的透明化,更能推動整個AI產業的良性發展。