又大又粗又猛免费视频久久_国产理论在线播放_久久男人av资源网站免费软件_99国产精品无码

上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?

大模型數(shù)學(xué)能力哪家強(qiáng)?

最近,上海AI lab構(gòu)建了一個(gè)全面的多語言數(shù)學(xué)基準(zhǔn)——MathBench。與現(xiàn)有的基準(zhǔn)不同的是,MathBench涵蓋從小學(xué)、初中、高中、大學(xué)不同難度,從基礎(chǔ)算術(shù)題到高階微積分、統(tǒng)計(jì)學(xué)、概率論等豐富類別的數(shù)學(xué)題目,跨度大,難度設(shè)置呈階梯狀,可以多維度評(píng)估模型的數(shù)學(xué)能力。

上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?

本文測(cè)試了20 個(gè)開源或閉源不同規(guī)模的大模型,包括新秀GPT-4o、常勝將軍GPT-4,還有開源模型里的扛把子通義千問和llama-3。

一起來看看各家大模型的數(shù)學(xué)真實(shí)水平到底如何吧~

3.5研究測(cè)試:
https://hujiaoai.cn

4研究測(cè)試:
https://askmanyai.cn

Claude-3研究測(cè)試:
https://hiclaude3.com

論文標(biāo)題:

MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark

論文鏈接
https://arxiv.org/pdf/2405.12209

Github連接
https://github.com/Open-compass/MathBench

方法

1. 預(yù)定義知識(shí)框架

在MathBench中,作者首先將數(shù)學(xué)內(nèi)容分為四個(gè)主要的教育階段和一個(gè)基礎(chǔ)算術(shù)階段。四個(gè)階段對(duì)應(yīng)于基礎(chǔ)教育階段:小學(xué)、初中、高中和大學(xué)?!八阈g(shù)”階段評(píng)估四種基本數(shù)學(xué)運(yùn)算的能力:加、減、乘、除。每個(gè)階段進(jìn)一步細(xì)分為學(xué)科領(lǐng)域(如代數(shù)、幾何、三角學(xué)、微積分、統(tǒng)計(jì)學(xué)、概率論等)和具體主題(如代數(shù)中的線性方程、二次方程、多項(xiàng)式函數(shù)),如下圖所示:

上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?

這種分類確保了廣泛數(shù)學(xué)問題的覆蓋,使數(shù)據(jù)集能夠深入揭示模型在各數(shù)學(xué)領(lǐng)域的理解和熟練程度。每個(gè)問題都帶有詳細(xì)標(biāo)簽,包括所屬階段、學(xué)科領(lǐng)域和主題,便于分析模型性能并識(shí)別其數(shù)學(xué)理解上的優(yōu)勢(shì)與不足。算術(shù)階段的強(qiáng)調(diào)也凸顯了基礎(chǔ)運(yùn)算在數(shù)學(xué)學(xué)習(xí)中的核心地位。

2. 數(shù)據(jù)收集與統(tǒng)計(jì)

在預(yù)定義的知識(shí)框架下,作者主要收集兩類問題:一是理論知識(shí)問題,旨在檢驗(yàn)?zāi)P蛯?duì)基本公式、理論及其推論的理解;二是實(shí)際應(yīng)用問題,考察將理論知識(shí)應(yīng)用于實(shí)踐的能力。

問題格式定義:由于在開放性問題上難以評(píng)估模型的的表現(xiàn),作者將可能產(chǎn)生復(fù)雜答案的理論知識(shí)和實(shí)踐應(yīng)用問題重新設(shè)計(jì)為四選一的選擇題形式,確保答案的唯一性和干擾項(xiàng)的高混淆度。

對(duì)于理論知識(shí)問題,從數(shù)學(xué)教科書和互聯(lián)網(wǎng)中按主題搜集相關(guān)定義和推論,并轉(zhuǎn)化為高質(zhì)量的多選題。在選擇實(shí)踐應(yīng)用問題時(shí),遵循以下標(biāo)準(zhǔn):匹配教育階段、全面覆蓋知識(shí)分類體系、問題表述清晰,主要關(guān)注如中考、高考、AMC和SAT等教育考試或競(jìng)賽的題目,并引入開源問題以豐富多樣性。MathBench問題的來源在下表中列出。

上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?

通過使用GPT-4半自動(dòng)化過濾過程,最終MathBench共包含3709個(gè)問題,涵蓋五個(gè)階段和三個(gè)知識(shí)層級(jí)的中英文內(nèi)容。數(shù)據(jù)集分為MathBench-T(含2,209個(gè)理論問題)和MathBench-A(含1,500個(gè)實(shí)踐應(yīng)用問題)兩部分。

實(shí)驗(yàn)與分析

本文主要使用CircularEval (CE) 和 perplexity (PPL) 評(píng)估Chat模型和Base模型。CE通過系統(tǒng)性地評(píng)估包含N個(gè)選項(xiàng)的多選問題,每次改變選項(xiàng)順序來進(jìn)行評(píng)估。為確保評(píng)估一致性,統(tǒng)一設(shè)置最大輸出長度為2048個(gè)Token,并采用貪心解碼策略對(duì)所有LLMs進(jìn)行評(píng)估。評(píng)估框架采用OpenCompass。評(píng)估模型涵蓋了超20中開源與閉源模型,還有幾個(gè)專門針對(duì)數(shù)學(xué)能力進(jìn)行微調(diào)后的數(shù)學(xué)LLMs。

chat模型評(píng)估效果

下表展示了實(shí)驗(yàn)結(jié)果,分為面向應(yīng)用的部分(MathBench-A), 以及理論構(gòu)成的部分(MathBench-T)。

上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?

在MathBench-A中,GPT-4o(GPT-4o-2024-05-13)總體表現(xiàn)最佳,尤其在初中、高中和大學(xué)階段數(shù)學(xué)試題測(cè)試中顯著領(lǐng)先。開源模型中,Qwen1.5-110B-Chat表現(xiàn)最優(yōu),而DeepSeek-Math-7B-RL雖小但數(shù)學(xué)能力也很突出。

在開源的chat模型中,不同參數(shù)規(guī)模的模型表現(xiàn)出不同的能力:

約7B模型:InternLM2-Chat-7B和Llama-3-8B-Instruct在7億規(guī)模模型中脫穎而出。Llama-3-8B-Instruct與ChatGLM3-6B相比,性能差距隨難度遞增,分別高出43.95%-723.53%。這表明高階數(shù)學(xué)問題對(duì)模型的理解和推理能力提出更高要求,小型LLMs在解決復(fù)雜問題上仍面臨挑戰(zhàn)。

約20B模型:InternLM2-Chat-20B表現(xiàn)出色,其次是Qwen-14B-Chat。盡管Yi-34B-Chat參數(shù)量更大,但其性能卻不及其他20B模型。這些模型在解決高中和大學(xué)復(fù)雜數(shù)學(xué)問題時(shí)也面臨挑戰(zhàn)。

約70B模型: Qwen1.5-110B-Chat在解決數(shù)學(xué)應(yīng)用問題上尤為出色,不僅超越了其他開源聊天模型,還超越了多個(gè)專用數(shù)學(xué)模型,性能接近閉源模型GPT-4-0125-Preview。

專注數(shù)學(xué)任務(wù)模型: DeepSeek-Math-7B-RL在處理小學(xué)至大學(xué)數(shù)學(xué)應(yīng)用問題時(shí)均表現(xiàn)優(yōu)異,不僅超越了同類模型,還以僅十分之一的模型大小,在參數(shù)量大10倍的DeepSeek-67B-Chat上取得了24.8%的性能優(yōu)勢(shì),這彰顯了其在數(shù)學(xué)問題求解方面的高效性和針對(duì)性。

在MathBench-T中,GPT-4o同樣在各階段均表現(xiàn)出色,平均理論得分87.0,位居所有模型之首。結(jié)合其MathBench-A的應(yīng)用得分70.9,GPT-4o在理論與應(yīng)用層面均展現(xiàn)卓越性能。

Qwen系列模型緊隨其后,其中Qwen1.5-110B-Chat在初級(jí)階段領(lǐng)先,并在“Primary”階段以93.4的CE分?jǐn)?shù)居首。但在高級(jí)教育階段,GPT-4o優(yōu)勢(shì)明顯,如大學(xué)級(jí)理論知識(shí)階段高出Deepseek-Math-7B-RL達(dá)16.9分。

InternLM2-Chat-7B在70億參數(shù)模型中表現(xiàn)穩(wěn)健,其理論階段表現(xiàn)優(yōu)于Qwen-7B-Chat達(dá)31.3%。Deepseek-Math-7B-RL在數(shù)學(xué)領(lǐng)域持續(xù)領(lǐng)先,成績(jī)超越Llama-3-70B-Instruct。

MathBench測(cè)試顯示,模型在理論與應(yīng)用能力上排名相近,理論強(qiáng)的模型應(yīng)用亦佳,反之亦然。

Base模型評(píng)估結(jié)果

下表展示了Base模型的結(jié)果,可以看出Base模型與其Chat模型性能一致。

上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?

在7B參數(shù)范圍里,InternLM2-7B的表現(xiàn)是最好的。Qwen-14B和Qwen-72B在MathBench基準(zhǔn)測(cè)試中,各自在其所屬的參數(shù)類別中表現(xiàn)得非常出色。

在處理數(shù)學(xué)任務(wù)時(shí),Deepseek-Math-7B-Base與Chat模型的表現(xiàn)結(jié)果非常接近,這說明基礎(chǔ)模型(Base模型)和聊天模型(Chat模型)在性能上有很高的相似性。

ChatGLM3-6B-Base在7B類別中排在第二位,它超過了Qwen-7B和Mistral-7B-v0.1。但是,它的聊天版本ChatGLM3-6B在MathBench-A測(cè)試中,性能比Qwen-7B-Chat差95.2%,在MathBench-T測(cè)試中,差距更是高達(dá)104.7%。這種性能上的差異很可能是因?yàn)樵诤罄m(xù)優(yōu)化階段,它們采用了不同的調(diào)整方法。

細(xì)粒度分析

模型在應(yīng)用問題上的得分隨著問題難度的提升而顯著變化。

如下圖所示,大多數(shù)模型在算術(shù)和基礎(chǔ)數(shù)學(xué)問題上的表現(xiàn)很出色。然而,當(dāng)問題難度達(dá)到中等或更高時(shí),它們的性能會(huì)大幅下降。這說明當(dāng)前模型在解決可以通過直接計(jì)算、模式識(shí)別或記憶基本概念的任務(wù)時(shí)表現(xiàn)良好,但在面對(duì)更復(fù)雜的數(shù)學(xué)問題時(shí)則顯得力不從心。

上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?

模型的理論理解與應(yīng)用能力之間存在差距嗎?

模型的理論理解與應(yīng)用能力之間確實(shí)存在差距,尤其是在處理不同階段的數(shù)學(xué)問題時(shí)。如下圖所示,LLM在不同階段的理論和應(yīng)用得分趨勢(shì)揭示了這一點(diǎn)。

上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?

在基礎(chǔ)階段,大多數(shù)LLM的理論和應(yīng)用得分高度相關(guān),顯示出它們?cè)诮鉀Q簡(jiǎn)單任務(wù)時(shí),理論理解和應(yīng)用能力能夠較好地結(jié)合。然而,也有少數(shù)例外。例如,Qwen-72B-Chat在理論能力上表現(xiàn)出色,而Claude-3-Opus在應(yīng)用能力上更勝一籌。

隨著問題難度的增加,即進(jìn)入中等及以上階段,模型需要更強(qiáng)的計(jì)算和推理能力來取得良好的應(yīng)用得分。在這一階段,理論與應(yīng)用之間的差距開始顯現(xiàn)。GPT-4在所有階段的應(yīng)用表現(xiàn)都領(lǐng)先,尤其是在更高級(jí)階段,這種差距更加明顯。

因此,雖然理論是解決大多數(shù)應(yīng)用問題的基礎(chǔ),但在面對(duì)更高難度的任務(wù)時(shí),模型的理論理解與應(yīng)用能力之間會(huì)存在一定的差距。為了提高模型的整體性能,我們需要在加強(qiáng)模型理論理解的同時(shí),注重提升其在實(shí)際應(yīng)用中的表現(xiàn)。

模型在不同子主題下表現(xiàn)如何?

如下圖所示,模型在涉及基礎(chǔ)數(shù)學(xué)技能的主題上表現(xiàn)優(yōu)異,如“單位轉(zhuǎn)換”、“四則運(yùn)算”和“方程的基本概念”,這些主題的平均得分較高。

然而,面對(duì)需要抽象推理和復(fù)雜計(jì)算的主題,如“雙重積分”、“數(shù)學(xué)邏輯”和“集合論”,模型表現(xiàn)欠佳,平均得分較低。

上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?

這提示我們,針對(duì)這些較難的數(shù)學(xué)問題,需要對(duì)模型進(jìn)行專門的分析和優(yōu)化,找出推理能力不足或基礎(chǔ)理論概念掌握不穩(wěn)定的根源,以提高模型的整體性能。

在雙語場(chǎng)景下,哪種模型表現(xiàn)更佳?

下圖展示了各種LLM在MathBench上的雙語能力,強(qiáng)調(diào)了處理需要理解不同語言和數(shù)學(xué)概念細(xì)微差別數(shù)學(xué)任務(wù)時(shí)語言靈活性的重要性。

上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?

在所有LLM中,GPT-4以67.1的最高雙語分?jǐn)?shù)領(lǐng)先,它在中文(65.2)和英語(69.0)方面的表現(xiàn)均衡,這顯示出其卓越的雙語處理能力。其他模型如Qwen-72B-Chat和DeepSeek Math-7B-RL也展現(xiàn)出了顯著的雙語能力。但值得注意的是,大多數(shù)評(píng)估的LLM在中文和英語之間的性能差距相比GPT-4要大得多。

錯(cuò)誤分析

本文還對(duì)每個(gè)階段隨機(jī)抽取的80個(gè)理論問題和100個(gè)應(yīng)用問題進(jìn)行了全面的錯(cuò)誤分析,如下圖所示:

上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?

錯(cuò)誤主要由以下問題引起:

  • 知識(shí)匱乏:在理論性問題中,高達(dá)78%的模型錯(cuò)誤源于對(duì)數(shù)學(xué)概念的誤解,這一比例在所有錯(cuò)誤中占據(jù)49.5%。這表明大多數(shù)模型在掌握基礎(chǔ)知識(shí)和術(shù)語上還存在明顯的不足。
  • 推理能力欠缺:模型在邏輯推理方面存在明顯短板,33.4%的錯(cuò)誤源于邏輯上雖連貫但存在缺陷的推理過程。此外,還有9.6%的錯(cuò)誤是因?yàn)槟P推x了用戶的查詢意圖,這反映出模型在理解用戶意圖和給出恰當(dāng)回答方面的局限性。隨著任務(wù)難度的增加,這類與推理相關(guān)的錯(cuò)誤也會(huì)增多。
  • 長度限制:盡管在統(tǒng)計(jì)上不是主要的錯(cuò)誤類型(僅占4.0%),但模型在處理復(fù)雜任務(wù)時(shí)受限于輸出長度,這暴露了模型在有限空間內(nèi)處理復(fù)雜指令和任務(wù)的挑戰(zhàn)。
  • 其他不足:有時(shí),模型會(huì)給出缺乏明確推理過程的回答,這使得審查變得困難。然而,那些具備更強(qiáng)推理能力的模型在面對(duì)選擇時(shí),能夠展現(xiàn)出批判性思維,提供超出預(yù)設(shè)選項(xiàng)的解答。

結(jié)語

MathBench根據(jù)問題難度和階段對(duì)數(shù)學(xué)題進(jìn)行分類,全面評(píng)估了LLMs的數(shù)學(xué)能力。它覆蓋了教育各階段的廣泛學(xué)科和主題,為數(shù)學(xué)學(xué)習(xí)和評(píng)估領(lǐng)域的研究者及教育工作者提供了寶貴的資源。

上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
在線咨詢
分享本頁
返回頂部