2. OpenAI的测试结果
这一部分结果来自OpenAI的GPT-4论文。
第一个测试是人类参与的专业考试,测试结果如下图所示。
图中的柱状表示百分位数。比如,第六列的Uniform Bar Exam(律师资格考试),ChatGPT(GPT3.5)大概是垫底的10%(蓝色柱子),而GPT-4是最高的10%(绿色柱子)。图中浅绿色表示没有视觉能力的GPT-4(没有用图像数据训练),深绿色表示有视觉能力的GPT-4。
第二个测试结果是传统的“刷榜”:在一些标准的数据集上测试GPT-4的能力。结果如下。
最左侧是数据集和任务的描述。结果的第一列和第二列分别是GPT-4和ChatGPT(GPT3.5)的结果。非常明显,GPT-4的能力强太多。
本文转载于Civ 2023年6月13日在知乎发布文章
本文源自互联网转载,文章所有权为原网站和原作者所有,若本文的转载侵害了原网站和原作者的相关权益,请邮件联系info@aigcite.com告知我们,我们将无条件保护您的权益,立即删除。
© 版权声明
文章版权归作者所有,未经允许请勿转载。