您現在的位置：首頁 > 綜合 > 特別關注 > 正文

研究：GPT-4 在執(zhí)行多項現實任務中擊敗其他大語言模型

時間：2023-08-11 11:10:17 來源：站長之家

本文概要:

1. GPT-4在大型語言模型中表現出色，取得最高總分4.41。

2. GPT-4在幾乎所有領域都領先于其他模型，只有在網購任務中，GPT-3.5表現更好。

(資料圖片僅供參考)

3. 開源模型整體表現不佳，遠遠落后于商業(yè)模型和 GPT-3.5。

市面上已經有有許多商業(yè)和開源的文本生成人工智能。現在專門為測試輔助任務開發(fā)的基準測試表明，GPT-4在這一領域脫穎而出。

編程客棧（）8月11日消息:最新的研究顯示，在 “現實世界語用任務” 中，GPT-4在大型語言模型中表現出色。研究團隊使用一個名為 “AgentBench” 的基準測試對多個提供商的25個大型語言模型以及開源模型進行了測試。

“AgentBench”是專門為衡量大語言模型在“現實世界語用任務”中的輔python助能力而設計的標準化測試。所有測試均在實時交互環(huán)境中進行。這使得該基準特別適合其想要測量的內容:大型語言模型處理總共八個領域的各種日常任務的能力。

操作系統(tǒng):LLM必須執(zhí)行與計算機操作系統(tǒng)的使用相關的任務。

數據庫:這個環(huán)境是關于LLM如何與數據庫合作。

知識圖:此環(huán)境測試LLM如何使用知識圖。

數字卡牌游戲:這測試了LLM對數字卡牌游戲和制定策略的理解程度。

橫向思維難題:此挑戰(zhàn)測試法學碩士在解決問題時的創(chuàng)造力。這要求他們跳出框框思考。python

預算:此場景涉及基于 Alfworld 數據集的預算中發(fā)生的任務。

互android聯(lián)網購物:此場景測試LLM在與在線購物相關的任務上的表現。

網頁瀏覽:基于 Mind2Web 數據集，此場景測試LLM執(zhí)行與使用互聯(lián)網相關的任務的能力。

結果顯示，GphpPT-4以最高總分4.41領先于其他模型，在幾乎所有領域都表現出色，只在網購任務中稍遜于 GPT-3.5。

競爭對手 Anthropic 的 Claude 模型緊隨其后，總得分為2.77，領先于 OpenAI 的免費 GPT-3.5Turbo 模型。商業(yè)模型的平均得分為2.24。與開源模型相比，GPT-4的優(yōu)勢更加明顯，開源模型的平均得分只有0.42。

研究人員指出，開源模型在所有復雜任務中普遍表現不佳，遠遠落后于 GPT-3.5。研究團隊將工具包、數據集和基準測試環(huán)境提供給研究界，以編程客棧便進行更廣泛的性能比較。

關鍵詞：

上一篇：文明出行交通安全共同守護
下一篇：最后一頁

特別關注

宇瞳光學：安防領域今年出貨量有望增長20%左右

宇瞳光學(300790)在投資者關系活動記錄表中披露，在安防領域，今年第一

2023-08-11 10:44
數據要素概念股震蕩走低

數據要素概念股震蕩走低，三維天地(301159)跌超10%，卓創(chuàng)資訊(301299)

2023-08-11 10:53
智度股份：全球首款ChatGPT音箱將由VIFA于8月17日全球首發(fā)

智度股份(000676)今日官微消息，全球首款ChatGPT音箱，將由VIFA于8月17

2023-08-11 10:44
海南召開持續(xù)深化農墾改革領導體制和工作機制專題會議

8月10日，海南省委副書記沈丹陽主持召開專題會議，聽取農墾改革相關情

2023-08-11 10:45
醫(yī)美概念股震蕩走高

醫(yī)美概念股震蕩走高，哈三聯(lián)(002900)漲超8%，冠昊生物(300238)、愛朋醫(yī)

2023-08-11 10:56
海康威視等設新公司經營范圍含儲能技術服務

企查查APP顯示，近日，浙江海視鹿躍科技有限公司成立，注冊資本2000萬

2023-08-11 10:54
人民日報聚焦山東聊城：優(yōu)質肉蛋奶豐富“菜籃子”

加快發(fā)展現代設施畜牧業(yè)，2030年我國畜禽養(yǎng)殖規(guī)?；蕦⑦_83%以上優(yōu)質

2023-08-11 10:10
視頻丨草長鶯飛、碧水連天，馬踏湖生態(tài)治理重現北國江南風光

“打華溝向北走，馬踏湖上走一走，馬踏湖不吹噓，這是國家認定的旅游區(qū)

2023-08-11 10:12
內盤菜籽粕期貨主力開盤漲超2%

內盤菜籽粕期貨主力開盤漲超2%，純堿、液化氣、PTA、豆粕、不銹鋼漲超1

2023-08-11 09:46
中國央行今日進行20億元7天期逆回購操作

中國央行今日進行20億元7天期逆回購操作，中標利率為1 90%，與此前持平

2023-08-11 09:53

熱文推薦