国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

甲骨易AI研究院推出中文大語言模型評測集合-LucyEval,讓智能有跡可循!

發布時間:2023-8-31 10:47    發布者:科技新思路



夕小瑤科技說 分享
Lucy,是距今320萬年最早的人類祖先,也是被輸入某種“物質”后大腦開發到100%的超智能人類,能感知宇宙萬物,擁有人類所有知識。如果大模型是Lucy,那么LucyEval即是助力其更智能的奇妙”物質“。

隨著大語言模型不斷調優,大模型擁有了更優越的理解人類話語、指令并且生成類似人類語言文本的能力。機器和人類終歸不同,如何最快速地判斷機器是否能正確理解人類的知識和語言,成為我們共同關注的問題。

由此,甲骨易AI研究院推出了中文大語言模型成熟度評測——LucyEval,能夠通過對模型各方面能力的客觀測試,找到模型的不足,幫助設計者和工程師更加精準地調整、訓練模型,助力大模型不斷邁向更智能的未來。

Lucy的每一個字母背后都代表了不同的意義,包含著甲骨易AI研究院設計LucyEval時所考量的維度和堅持的理念。

  • L - Linguistic Fundamentals: 基礎理解能力
  • U - Utilization of Knowledge: 知識運用能力
  • C - Cognitive Reasoning: 推理能力
  • Y - Yield of Specialized Outputs: 特殊生成能力

"Lucy" 包含以下含義:

Linguistic Fundamentals (基礎理解能力) :描述模型對基礎語法、詞匯和句子結構的理解程度。
Utilization of Knowledge (知識運用能力):衡量模型在回答問題或生成文本時如何運用其內嵌的知識。

Cognitive Reasoning (推理能力):評價模型是否能從給定的信息中進行邏輯推斷或解決復雜問題。

Yield of Specialized Outputs (特殊生成能力):測試模型在生成特定類型或風格的文本(例如詩歌、代碼或專業文章)時的效能。

目前,LucyEval已發布如下兩項測試集。

大規模多任務中文理解能力測試 Massive Multitask Chinese Understanding

2023年4月25日,針對中文大模型理解能力測試缺失且推出高質量中文評測數據集迫在眉睫這一現狀,甲骨易AI研究院率先發布(首發)了一套大規模多任務中文大模型理解能力測試。
測試所包含的題目來自醫療、法律、心理學和教育四個科目的11900個問題,包含單項選擇和多項選擇題,目的旨在使測試過程中模型更接近人類考試的方式,覆蓋學科面廣,專業知識難度高,適合用來評估大模型的綜合理解能力。

論文鏈接:
https://arxiv.org/abs/2304.12986

中文大模型多學科生成能力自動化評測基準 Chinese Generation Evaluation

目前領域內的評測大多都只針對模型的中文理解能力,通過選擇題由模型直接生成答案,或者提取模型對各個答案選項的輸出概率。從評測大模型的生成能力的角度,這些評測基準就存在很大的局限性。

在率先發布國內首個中文大模型理解能力測試后,甲骨易AI研究院于8月9日正式發布一套自動測評中文大模型多學科生成能力的評測基準。

基準包含11000道題目,涵蓋科技工程、人文與社會科學、數學計算、醫師資格考試、司法考試、注冊會計師考試等科目下的55個子科目。題型分為名詞解釋、簡答題和計算題三種類型。同時,甲骨易AI研究院還設計了一套復合打分方式Gscore,使評分過程更加合理、科學。

甲骨易AI研究院使用本評測基準對以下模型進行了zero-shot測試,包括GPT-4、ChatGLM-Std、訊飛星火Spark Desk、文心一言ERNIE Bot等。

本次受測中文大語言模型


從所有模型在六大類科目的平均分來看,GPT-4取得最高分41.12,比最低分32.28高出8.84分。

本次受測中文大語言模型平均得分

受測模型在其他學科的表現詳見評測地址:

http://lucyeval.besteasy.com/

未來,甲骨易AI研究院將矢志不移地為提升中文大語言模型能力為目標,持續研究適應其發展的測試集,期待與同樣關注大語言模型發展的業界同仁攜手共建。

論文鏈接:
https://arxiv.org/abs/2308.04823


更多AI相關資訊,請關注微信公眾號:甲骨易



本文地址:http://www.qingdxww.cn/thread-837952-1-1.html     【打印本頁】

本站部分文章為轉載或網友發布,目的在于傳遞和分享信息,并不代表本網贊同其觀點和對其真實性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問題,我們將根據著作權人的要求,第一時間更正或刪除。
您需要登錄后才可以發表評論 登錄 | 立即注冊

廠商推薦

  • Microchip視頻專區
  • 安靜高效的電機控制——這才是正確的方向!
  • 基于CEC1712實現的處理器SPI FLASH固件安全彈性方案培訓教程
  • 了解一下Microchip強大的PIC18-Q24 MCU系列
  • PIC18-Q71系列MCU概述
  • 貿澤電子(Mouser)專區
關于我們  -  服務條款  -  使用指南  -  站點地圖  -  友情鏈接  -  聯系我們
電子工程網 © 版權所有   京ICP備16069177號 | 京公網安備11010502021702
快速回復 返回頂部 返回列表
主站蜘蛛池模板: 天海翼一区二区在线观看 | 国产精品欧美视频另类专区 | 蝴蝶传媒视频免费观看 | 免费在线h视频 | 两·个人hd视频 | 四虎永久免费地ww4hu57 | 愉拍自拍视频在线播放 | 国产精品免费看久久久久 | 亚洲视频在线观看免费视频 | 欧美乱妇高清视频免欢看关 | 亚洲精品98久久久久久中文字幕 | 热久久99影院| 精品卡1卡2卡三卡免费视频 | 好想男人又曰又添视频 | 精品无人区一区二区三区a 精品无人区麻豆乱码1区2区 | 五月开心六月伊人色婷婷 | 午夜诱惑福利 | 女人18一级特级毛片免费看 | 国产精品国偷自产在线 | 色玖玖 | 欧美亚洲一区二区三区四 | 色偷偷男人天堂 | 日日夜夜综合网 | 香蕉久人久人青草青草 | 91小视频在线观看 | 亚欧乱亚欧乱色视频免费 | 日本欧美一区二区三区 | 亚洲日本一区二区三区高清在线 | 久久99国产精一区二区三区 | 欧美不在线 | 亚洲最新永久在线观看 | 久久女 | 日本特黄特色aaa大片免费 | 成在线人永久免费播放视频 | 一级特黄aaa大片免费看 | 四虎影视国产精品 | 四虎最新免费网址 | 四虎影院在线网址 | 91久久国产视频 | 夜夜狠狠 | 青青草原社区 |