來(lái)源:快科技 全球知名的開(kāi)源平臺(tái)Hugging Face的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clem在社交平臺(tái)激動(dòng)宣布,阿里巴巴最新開(kāi)源的Qwen2-72B指令微調(diào)版本在開(kāi)源模型排行榜上榮登榜首。 為了打造一個(gè)更為公正和準(zhǔn)確的開(kāi)源大模型排名,Clem及其團(tuán)隊(duì)利用300塊H100高性能硬件,對(duì)全球100多個(gè)主流開(kāi)源大模型,包括Qwen2、Llama-3、Mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等嚴(yán)格的基準(zhǔn)測(cè)試集上進(jìn)行了全面而深入的評(píng)估。 這次重新評(píng)估的初衷在于,許多開(kāi)發(fā)者過(guò)于追求排行榜的名次,導(dǎo)致在模型訓(xùn)練過(guò)程中過(guò)度依賴(lài)評(píng)估集數(shù)據(jù),并且過(guò)去的評(píng)估標(biāo)準(zhǔn)對(duì)于模型而言顯得過(guò)于簡(jiǎn)單。因此,本次評(píng)估提高了難度標(biāo)準(zhǔn),以檢驗(yàn)這些模型在更高挑戰(zhàn)下的真實(shí)性能。 令人矚目的是,阿里巴巴開(kāi)源的Qwen-2 72B模型在激烈競(jìng)爭(zhēng)中脫穎而出,不僅超越了科技巨頭Meta的Llama-3,還超越了法國(guó)知名大模型平臺(tái)Mistralai的Mixtral,成為了新的行業(yè)領(lǐng)軍者。這一成績(jī)充分展示了中國(guó)在全球開(kāi)源大模型領(lǐng)域的領(lǐng)導(dǎo)地位。 針對(duì)這一排名結(jié)果,Stability AI的研究總監(jiān)、早年在19歲便獲得博士學(xué)位的Tanishq表示,他早前就預(yù)測(cè)中國(guó)在開(kāi)源大模型領(lǐng)域具有強(qiáng)大的競(jìng)爭(zhēng)力。除了Qwen2,還有零一萬(wàn)物、InternLM、Deepsseek等眾多優(yōu)秀的中國(guó)開(kāi)源模型,都在國(guó)際舞臺(tái)上嶄露頭角。 Tanishq進(jìn)一步強(qiáng)調(diào),任何關(guān)于中國(guó)在開(kāi)源大模型領(lǐng)域落后的觀點(diǎn)都是站不住腳的。相反,中國(guó)在這一領(lǐng)域正逐漸展現(xiàn)出領(lǐng)導(dǎo)者的姿態(tài),引領(lǐng)著全球開(kāi)源模型的發(fā)展潮流。 |