微軟近期推出的 Windows Agent Arena,是一個針對 AI 智能助理在 Windows 環境中進行測試的全新開放平台,專為打造更智慧化的工作助理而設計。究竟此平台的推出,能不能讓 AI 技術更接近實際應用?讓我們來看看吧!
Windows Agent Arena是什麼?
Windows Agent Arena 是微軟針對 AI 技術推出的全新開源平台,目標是讓 AI 助理能在真實的 Windows 操作環境中進行測試與優化。透過這項平台,研究人員能模擬真實使用場景,如使用 Microsoft Edge 瀏覽器、微軟小畫家、VLC 播放器等應用程式,讓 AI 助理學會如何自主執行複雜操作。
微軟在此平台上,還設計了超過 150 種任務,讓 AI 助理能夠進行多模態任務,這些任務包含畫面理解、規劃與工具使用等。
AI助理表現並不理想
根據微軟的初步測試數據,現階段的多模態 AI 助理在 Windows Agent Arena 中的任務成功率僅為 19.5%,遠低於人類平均的 74.5%。這一結果顯示,儘管平台提供了良好的測試環境,但 AI 助理在真實操作中仍有很大的提升空間。微軟研究團隊表示,將透過持續的數據調整與模型優化,努力縮小 AI 與人類的差距。
專家公開批評
Salesforce CEO 馬克·貝尼奧夫公開批評微軟的 Copilot 功能,稱其為「新的 Clippy」(Clippy 曾經以回形針的形象出現在 Office 產品中,本意是為用戶提供幫助,但由於過於頻繁地彈出干擾使用者操作,反而讓不少人感到不便,最終被微軟放棄。),並質疑其實用性與價值。
此外貝尼奧夫也指出,Copilot 缺乏足夠的數據和企業安全模型,無法真正滿足企業需求,暗示微軟在 AI 競賽中面臨嚴峻挑戰。
延伸閱讀
三哩島核電廠重啟計畫:科技巨頭與社會爭議的交錯
OpenAI的Whisper AI語音轉錄出現嚴重幻覺,專家警告風險極高