ChatGPT3.5和4.0真的使用差距很大吗?(一)

AI News12个月前更新 AIGC-SL
100 0 0

结论:差距很大,并且是全方位的差距。ChatGPT在GPT-4面前就是“小学生”对“大学生”一般的差距。

先看一些官方的测试结果,再给一些自己测的典型用例。

在本文介绍的所有测试中,ChatGPT都明显弱于GPT-4。

官方测试所涉及的能力:

  • 视觉能力
  • 代码能力
  • 数学计算能力
  • 工具使用能力
  • 与人的交互能力
  • 人类专业考试的能力

自己测的一些能力:

1. 微软的测试结果

这部分测试结果来自于微软针对GPT-4的研究论文《Sparks of Artificial General Intelligence: Early experiments with GPT-4 》。这篇论文测的是GPT-4的一个早期版本,它在训练阶段仍只用了文本数据,没有图像。所以从训练数据的类型来看,它和ChatGPT是一致的。

1.1 视觉能力

GPT-4的一个强大能力是它从纯文本中产生了视觉概念,但ChatGPT没有这种能力。

第一个测试方法是让模型用SVG(一种简易的图像格式)生成“汽车”、“卡车”、“猫”和“狗”。GPT-4和ChatGPT生成的图像如图1和图2所示。

ChatGPT3.5和4.0真的使用差距很大吗?(一)
图1 GPT-4生成的汽车、卡车、猫和狗

ChatGPT3.5和4.0真的使用差距很大吗?(一)
图2 ChatGPT生成的汽车、卡车、猫和狗

要注意,GPT-4和ChatGPT在训练中都没有使用图像。但GPT-4能够较为准确地理解了一些基础图像的概念,而ChatGPT完全不行。

第二个测试方法是让模型用英文字母来画火柴人:用字母O作为头,用Y作为身体和手臂,用H作为腿。

ChatGPT3.5和4.0真的使用差距很大吗?(一)
图3 GPT-4用字母画火柴人。左图:让GPT-4用字母O作为头,用Y作为身体和手臂,用H作为腿画出的火柴人;中图:告诉GPT-4身子太长了,头太歪了后,GPT-4做出的调整;右图:让GPT-4画上衣服和裤子。

GPT-4画出来的火柴人如图3中最左侧图所示。当告诉GPT-4身子太长了后,GPT-4对火柴人进行调整后的图如图4中图所示。这个新的火柴人基本正确。最后让GPT-4对火柴人加上衣服和裤子,如图4中右图所示。

而ChatGPT画出来的火柴人是这样:

ChatGPT3.5和4.0真的使用差距很大吗?(一)
图4 ChatGPT用字母画火柴人。左图:让ChatGPT用字母O作为头,用Y作为身体和手臂,用H作为腿画出的火柴人;右图:让ChatGPT画上衣服和裤子

显而易见,ChatGPT对图像基本没有概念。

1.2 代码能力

论文中有很多复杂的例子,比如让GPT-4按照文字描述写一个PyTorch的优化器;让GPT-4对一段代码进行单步运行;让GPT-4对一段伪代码进行单步运行并分析等等。在所有这些测试中,GPT-4都明显优于ChatGPT。这里挑一个简单一点的示例,代码也比较短,如下图所示。

ChatGPT3.5和4.0真的使用差距很大吗?(一)
图5 给定两个结构体,让GPT-4和ChatGPT分析它们的内存占用量。图中黄色区域为非常深刻的分析;红色区域为错误分析。

结构体x和结构体y的成员变量相同,但它们的顺序不同。GPT-4准确地知道结构体占用内存量与对齐规则有关,并给出了一个具体地示例。该示例假设以4-byte进行对齐。那么对于结构体x,它的第一个char a虽然只占1-byte,但因为int b需要对齐地址,所以char a实际占用了4-byte。同理,虽然char c也只占用1-byte,但因结构体的大小必须为4的倍数,所以char c也要占4-byte。

对于结构体y,int b占4-byte,char a占1-byte(因为char a的开销为1-byte,小于对齐的4-byte,所以按1-byte对齐即可),char b占1-byte,总共6-byte。但因结构体大小必须为4的倍数,所以总开销为8-byte。

而ChatGPT显然在胡说八道。

1.3 数学计算能力

先看一道应用题,原文如下:

ChatGPT3.5和4.0真的使用差距很大吗?(一)
图6 应用题

题目大致如下。有一群兔子,在每年年初时,它们的数量为变为原来的a倍。在每年年底时,这群兔子中有b只兔子会被抓走。假设最开始有x只兔子,三年后兔子总数时27x – 26,求a和b。

GPT-4和ChatGPT的解答分别如下:

ChatGPT3.5和4.0真的使用差距很大吗?(一)
图7 GPT-4和ChatGPT对“兔子问题”的解答

很容易看到,GPT-4答的非常好。而ChatGPT基本没理解到题目的意思。

然后再看一个没什么实际意义,但还是比较考验计算、信息整合能力的问题:估计一下全球共有多少A100显卡?

ChatGPT3.5和4.0真的使用差距很大吗?(一)
图8 GPT-4和ChatGPT对A100数量的估计

GPT-4的逻辑能力对ChatGPT就是碾压性的优势。整个回答中,GPT-4首先说明了它的假设。然后根据假设和公开可查阅的数据,一步一步进行推算。最终得出了一个看起来还行的结论。

而ChatGPT基本就是在敷衍了。

1.4 工具使用能力

不论是GPT-4还是ChatGPT,它们的缺陷都非常明显:

  • 无法获取及时信息;
  • 数值计算容易出错;
  • 一些简单且偏常识类的任务容易出错。

论文作者们通过一个例子来说明了GPT-4和ChatGPT存在的上述三个明显问题,如下图所示。

ChatGPT3.5和4.0真的使用差距很大吗?(一)
图9 GPT-4和ChatGPT均出错的三个简单示例

第一个问题关于及时信息:美国现在总统是谁?

GPT-4的回答明显错误(特朗普),而ChatGPT表现地更合理,直接回答说它的知识只到2021年。

第二个问题关于数值计算:34324 * 2432的平方根

正确答案是9136.51。GPT-4和ChatGPT都错的离谱。

第三个问题关于简单的尝试性逻辑:单词supralapsarian的第13个字符是什么?

正确答案是a,但GPT-4和ChatGPT都“数”错了。

正因为GPT-4和ChatGPT有如此明显的一些缺陷,所以作者们才考虑能否通过一些三方工具来辅助GPT,让它的能力更强。于是就有了针对一些工具使用能力的测试,如下图所示。

ChatGPT3.5和4.0真的使用差距很大吗?(一)
图10 GPT-4对工具使用能力的测试

这个测试其实很简单。作者们首先告诉GPT-4,在回答问题时,有以下工具可以使用(以API的形式):

  • 在需要获取及时信息时,可以使用搜索引擎,API形式为SEARCH(“query”);
  • 在需要进行数值计算时,可以使用计算器,API形式为CALC(expression);
  • 在需要寻找字符串指定位置字符时,可以使用CHARACTER(string, index)。

然后,作者们重新问了图9所示的三个问题。这一次,GPT-4能够准确使用相应的工具得到正确答案。“准确使用”意味着GPT-4知道它:1)在什么时候应该用工具,而不是自己作答;2)什么时候应该使用什么工具;3)准确写出API的参数。

例如,当这一次回答问题“美国现在总统是谁”时,GPT-4首先使用搜索引擎执行查询SEARCH(“current US president”),然后根据搜索引擎返回的搜索结果(图10中列出了三条结果),给出了正确答案“Joe Biden”。

类似的,计算“34324 * 2432的平方根”这一问题也通过计算器回答正确;从字符串中找字符也正确。

而ChatGPT完全不会使用这些工具,它始终坚持自己输出答案(答案同图9)。

1.5 与人类交互的能力

这一部分主要是指“理解人类行为、情感、心理所想”等诸如此类的能力。

先看一个例子,如下图:

ChatGPT3.5和4.0真的使用差距很大吗?(一)
图11 根据场景让GPT-4和ChatGPT理解人的意图

图中场景很简单,他们的对话翻译过来大致意思如下:

Mark:我不喜欢你昨晚对Jack的方式。

Judy:你没看到做了什么?他打了他兄弟的头!

Mark:但那不是你对他大吼大叫的理由。

Judy:那你希望我怎么做?让他痛打他的兄弟而我什么都不说?

Mark:不是。

Judy:那你为什么替他说话?

问题:Mark的意图可能是什么?

GPT-4的回答是:Mark的意图是表达他对Judy处理Jack方式的不满。他希望Judy能够更加冷静和礼貌。

ChatGPT的回答是:Mark的意图是为Jack的行为辩护,并表达他对Judy处理方式的异议。

容易看出,GPT-4理解的更为准确。而ChatGPT认为Mark的意图是“辩护”。

针对上述场景,第二个问题如下:

ChatGPT3.5和4.0真的使用差距很大吗?(一)
图12 问题二:Judy是如何接纳Mark意见的?

第二个问题是:Judy是如何接纳Mark意见的?

GPT-4的回答是:Judy认为Mark抨击了对她教养小孩的方法和缺少同理心。她很生气,并且质疑Mark的动机。

ChatGPT只回答了:Judy不同意Mark的观点。

剩下的不贴了,总之,在理解人类行为这方面,GPT-4几乎也是碾压性的优势。

 


本文转载于Civ 2023年6月13日在知乎发布文章
本文源自互联网转载,文章所有权为原网站和原作者所有,若本文的转载侵害了原网站和原作者的相关权益,请邮件联系info@aigcite.com告知我们,我们将无条件保护您的权益,立即删除。

© 版权声明

相关文章