最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

LLM AI事實性問題測試:New Bing vs Bard vs Chatgpt vs Claude vs Sage

2023-04-15 11:57 作者:真誠妹卡玩家  | 我要投稿

測試了目前幾款LLM聊天AI對于事實性問題的答案。

測試對象及版本:

New Bing(精確)

Bard?

Chatgpt(GPT-4)

Claude(Slack)?

Dragonfly(Poe)?

Sage(Poe)

測試問題一:你知道原神嗎?

New Bing:正確

Bard:正確

Chatgpt:正確

Claude:正確

Dragonfly:錯誤

Sage:正確

測試問題二:你知道刻晴嗎?

New Bing:完全正確

Bard:大部分正確,除了它說刻晴穿了白色大皮衣

Chatgpt:知道是原神的人物,然后開始編,說是地屬性的

Claude:知道是原神的人物,然后開始編,說是風(fēng)屬性的

Dragonfly:錯誤,刻晴是家具品牌

Sage:知道是原神的人物,然后開始編,說是電屬性的熒國公主


考慮到他們訓(xùn)練數(shù)據(jù)的時間,我選擇了21年9月前的人物來問。如果問珊瑚宮心海的話,除了New Bing 全軍覆沒。

測試問題三:我找了篇20年的paper,讓它們寫summary。

New Bing:完全正確,與原文的信息一致

Bard:根據(jù)題目編的,但是編的不好,前后有矛盾的地方,有點不像summary

Chatgpt:根據(jù)題目編的,編的可真了

Claude:根據(jù)題目編的,編的還不錯

Dragonfly:根據(jù)題目編的,胡編亂造,比Bard差,不像summary

Sage:根據(jù)題目編的,編的還不錯

結(jié)論:

New Bing:能聯(lián)網(wǎng),永遠(yuǎn)的神!

Bard:發(fā)揮不穩(wěn)定,怪怪的;只能用英語溝通,不太行

Chatgpt/Claude/Sage:一本正經(jīng)的胡說八道

Dragonfly:不行


吐槽:
哥們花錢買Plus不是看你胡說的!說的就是你,GPT-4!
Claude+等有錢買再測吧。

LLM AI事實性問題測試:New Bing vs Bard vs Chatgpt vs Claude vs Sage的評論 (共 條)

分享到微博請遵守國家法律
上饶县| 临湘市| 揭东县| 和顺县| 苍山县| 平湖市| 房山区| 华阴市| 垫江县| 望江县| 南宫市| 长武县| 泌阳县| 锡林浩特市| 瓮安县| 大田县| 英吉沙县| 广州市| 绥化市| 太白县| 新安县| 都安| 抚州市| 外汇| 恩施市| 河北省| 汤阴县| 民勤县| 攀枝花市| 苏尼特右旗| 邢台市| 育儿| 莲花县| 夹江县| 时尚| 政和县| 古蔺县| 石嘴山市| 武乡县| 仙居县| 汉川市|