遠東新聞 韓國組
隨著 AI 在科技產業橫掃,推動聊天機器人、搜尋引擎和生產力工具的發展,標準化的測試給了這個領域一個真實的檢驗。OpenAI 的 ChatGPT 在 2022 年 11 月點燃全球話題,大型語言模型的浪潮方興未艾。
每個新模型都被吹捧為最聰明或獨一無二的,超越其他對手。但它們真正是如何被評估的?誰才是真正的領導者?答案就在基準測試(benchmark)中。這些標準化測試已成為 AI 世界的計分板,各家公司爭相攀升排名,證明自己的價值。
7 月,韓國新創 Upstage 的 310 億參數 Solar Pro 2 模型,意外地在英國基準測試平台 Artificial Analysis 中,成為唯一上榜的韓國「前沿模型」,在智能表現上緊追全球前十,並在智能與運行成本比方面排名第一。
韓國模型表現競爭力十足
這個結果很快引起 Elon Musk 的反應,他的 AI 公司 xAI 也是後起之秀。Musk 在 X 網站上堅稱,他的 Grok 4 模型「仍然保持第一」,而且「正在快速進步」。這突顯出排行榜位置在全球 AI 競賽中,已變得極其敏感而具戰略意義。
OpenAI 上週發布最新的 GPT-5 模型時,也宣稱它在數學、編程和視覺感知等關鍵基準測試中,表現得「更加聰明」。一家韓國語言模型新創的高管表示:「對工程師來說,基準測試是衡量他們開發的語言模型在全球競爭中表現如何的晴雨表,也是未來發展的指南針。」
根據當地媒體報導,像是人類智商測驗或大學入學考試一樣,基準測試提供了一種結構化的方式來衡量語言理解、推理到程式生成等各種能力。當一個語言模型在某項基準測試中名列前茅,它就被認為是該任務的最先進技術(SOTA)。但這個頭銜會隨著新模型的發布而快速變化。
韓國模型在基準測試中競爭激烈
韓國的語言模型公司也在努力刷新紀錄。LG AI 實驗室 7 月 15 日發布最新的 Exaone 4.0 模型時,宣傳其在進階基準測試中的強勁表現。這個 320 億參數的模型在 MMLU-Pro 中得分 81.8%,超過微軟和 Mistral 的模型。在 AIME 2025 中,它也以 85.3% 的成績超越那些對手。
隨著語言模型快速進步,基準測試本身也在演變。MMLU 現在提供了涵蓋更複雜推理問題的 Pro 版本。1 月,一個由 1000 位專家組成的聯盟發起了「人類最後一考」(Humanity’s Last Exam)——一個橫跨古典文學到量子化學的 2500 個問題的測試。
但經常讓公眾感到困惑的是,源源不絕的得分清單。專家指出,由於語言模型可以完成許多不同的任務,每個模型都有自己的優勢,很難根據單一基準測試宣布一個模型是「最好的」。
韓國模型競爭力與全球頂尖模型並駕齊驅
LG 的 Exaone 4.0 和 Upstage 的 Solar Pro 2,是 7 月唯二進入 Artificial Analysis 指數的韓國語言模型。發布時,Exaone 4.0 在全球智能指數中排名第 11,與 Google、OpenAI、阿里巴巴等大品牌並駕齊驅。
Upstage 的 Solar Pro 2 更進一步,成為唯一獲得排行榜「前沿語言模型智能」類別認可的韓國模型,這個類別專門用於表現最佳、處於研發尖端的系統。它還在智能與運行成本比方面排名第一。
LG 的一位官員表示:「考慮到韓國模型的對手往往大好幾倍,可以說韓國模型的競爭力相當強。」他解釋,像 Grok 4 這樣曾在 7 月指數中排名第一的模型,有驚人的 1.7 萬億參數,這意味著它在訓練中使用了更多資源來達到智能得分。
該榜單此後更新了更具挑戰性的基準測試,並增加了新發布的模型,如超越 Grok 4 奪得榜首的 GPT-5,這讓韓國模型的排名略有下降,但兩者仍保留在全球指數中。
LG AI 實驗室和 Upstage 與 Naver Cloud、SK 電訊、NC AI 一起,被政府指定為五大聯盟,領導韓國自主 AI 基礎模型的開發。Naver 在 2021 年成為全球第三個開發超大規模 AI 模型 HyperClova 的公司,此後升級了基礎模型,並在 6 月發布了 HyperClova X Think。該公司強調其模型在深入理解韓語方面的優勢。
儘管 AI 領域變得擁擠,一個接一個的語言模型吹噓新的基準測試成績,但這些結果仍有重要目的:為工程師提供衡量進度的指標。LG 的一位官員表示:「全球科技巨頭仍然領先,但中國、法國、韓國等國家的參與者正在迎頭趕上,競爭非常激烈。韓國公司出現在排行榜和關鍵基準測試中,表明該國不僅在追趕,而且已牢牢進入這場競賽。」
同時,GPT-5 的推出表明,真實世界的用戶體驗與在高階基準測試中的出色表現同樣重要。這個備受期待的 OpenAI 模型在 8 月 7 日發布後,迅速登上 Artificial Analysis 智能指數榜首,但面臨用戶的反彈,他們抱怨它感覺「降級了」,指出其個性變得乏味,還出現出人意料的基本錯誤。
慶熙大學大數據分析學教授李京俊強調,語言模型競爭力的真正衡量標準在於其實用性。他說:「韓國語言模型在基準測試中取得進展,但重要的是要注意,即使是 Exaone 這樣的主要模型,目前對一般大眾的影響也很小。必須繼續努力,確保這些優秀的模型在實際使用案例中得到採用,並實現廣泛應用。」