ChatGPT3.5和4.0真的使用差距很大吗?(二)

AI News12个月前更新 AIGC-SL
67 0 0

2. OpenAI的测试结果

这一部分结果来自OpenAI的GPT-4论文。

第一个测试是人类参与的专业考试,测试结果如下图所示。

ChatGPT3.5和4.0真的使用差距很大吗?(二)
图13 人类专业考试测试

图中的柱状表示百分位数。比如,第六列的Uniform Bar Exam(律师资格考试),ChatGPT(GPT3.5)大概是垫底的10%(蓝色柱子),而GPT-4是最高的10%(绿色柱子)。图中浅绿色表示没有视觉能力的GPT-4(没有用图像数据训练),深绿色表示有视觉能力的GPT-4。

第二个测试结果是传统的“刷榜”:在一些标准的数据集上测试GPT-4的能力。结果如下。

ChatGPT3.5和4.0真的使用差距很大吗?(二)
图14 GPT-4和ChatGPT的刷榜表现

最左侧是数据集和任务的描述。结果的第一列和第二列分别是GPT-4和ChatGPT(GPT3.5)的结果。非常明显,GPT-4的能力强太多。

 


本文转载于Civ 2023年6月13日在知乎发布文章
本文源自互联网转载,文章所有权为原网站和原作者所有,若本文的转载侵害了原网站和原作者的相关权益,请邮件联系info@aigcite.com告知我们,我们将无条件保护您的权益,立即删除。

© 版权声明

相关文章