自然人类行为》GPT-3的推理能力和大学生一样好

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2023年08月01日 来源：University of California - Los Angeles

编辑推荐：

　　人工智能语言模型GPT-3在解决标准化考试中出现的某些逻辑问题方面表现得和大学生一样好。进行这项实验的研究人员写道，实验结果引发了这样一个问题:这项技术是在模仿人类的推理，还是在使用一种新的认知过程。要解决这个问题，需要访问支持GPT-3和其他人工智能软件的软件。

人们不需要经过任何特殊的训练或实践就能轻松地解决新问题，方法是将新问题与熟悉的问题进行比较，并将解决方案推广到新问题上。这个过程被称为类比推理，长期以来一直被认为是人类独有的能力。

但现在人们可能不得不为新来者腾出空间。

加州大学洛杉矶分校心理学家的研究表明，令人惊讶的是，当被要求解决智力测试和SAT等标准化测试中通常出现的推理问题时，人工智能语言模型GPT-3的表现与大学本科生差不多。这项研究发表在《自然人类行为》杂志上。

但该论文的作者写道，这项研究提出了一个问题:GPT-3模仿人类推理是其庞大语言训练数据集的副产品，还是它正在使用一种全新的认知过程?

由于无法访问GPT-3的内部工作原理(由开发GPT-3的公司OpenAI保护)，加州大学洛杉矶分校的科学家无法确定其推理能力是如何工作的。他们还写道，尽管GPT-3在一些推理任务上的表现远远好于他们的预期，但在其他方面，这个流行的人工智能工具仍然表现得非常糟糕。

“无论我们的结果多么令人印象深刻，必须强调的是，这个系统有很大的局限性，”加州大学洛杉矶分校心理学博士后研究员、该研究的第一作者泰勒·韦伯(Taylor Webb)说。“它可以做类比推理，但它不能做对人类来说很容易的事情，比如使用工具来解决物理任务。当我们给它这类问题时——其中一些孩子可以很快解决——它给出的建议是荒谬的。”

韦伯和他的同事们测试了GPT-3解决一系列问题的能力，这些问题的灵感来自一项名为“瑞文渐进矩阵”的测试，该测试要求受试者预测复杂形状排列中的下一张图像。为了使GPT-3能够“看到”形状，韦伯将图像转换为GPT-3可以处理的文本格式;这种方法也保证了人工智能之前永远不会遇到这些问题。

研究人员要求40名加州大学洛杉矶分校的本科生解决同样的问题。

“令人惊讶的是，GPT-3不仅表现得和人类一样好，而且也犯了类似的错误，”加州大学洛杉矶分校心理学教授、该研究的资深作者卢宏静说。

GPT-3答对了80%的问题——远高于人类受试者略低于60%的平均得分，但也在人类最高得分的范围内。

研究人员还促使GPT-3解决了一组他们认为从未在互联网上发布过的SAT类比问题，这意味着这些问题不太可能是GPT-3训练数据的一部分。这些问题要求用户选择具有相同类型关系的单词对。(例如，在“‘爱’是要‘恨’作为‘富’是要哪个字?，那么解决方案就是“可怜的”。)

他们将GPT-3的分数与公布的大学申请者的SAT分数进行了比较，发现人工智能的表现优于人类的平均分数。

然后，研究人员要求GPT-3和学生志愿者根据短篇故事解决类比问题——要求他们阅读一篇文章，然后识别传达相同含义的不同故事。这项技术在这些问题上的表现不如学生，尽管OpenAI技术的最新版本GPT-4比GPT-3表现得更好。

加州大学洛杉矶分校的研究人员开发了他们自己的计算机模型，该模型受到人类认知的启发，并一直在将其能力与商业人工智能进行比较。

该研究的合著者、加州大学洛杉矶分校心理学教授基思·霍利亚克说:“人工智能正在变得越来越好，但我们的心理人工智能模型在处理类比问题方面仍然是最好的，直到去年12月，泰勒得到了最新升级的GPT-3，它和以前一样好，甚至更好。”

研究人员表示，到目前为止，GPT-3还无法解决需要理解物理空间的问题。例如，如果向GPT-3提供一组工具的描述——比如，一个纸板管、剪刀和胶带——它可以用来把口香糖从一个碗转移到另一个碗，GPT-3提出了奇怪的解决方案。

“语言学习模型只是试图做单词预测，所以我们很惊讶它们能做推理，”卢说。“在过去的两年里，这项技术比之前的版本有了很大的飞跃。”

加州大学洛杉矶分校的科学家们希望探索语言学习模型是真的开始像人类一样“思考”，还是在做一些完全不同的事情，只是模仿人类的思维。

“GPT-3可能有点像人类一样思考，”Holyoak说。“但另一方面，人们不是通过摄取整个互联网来学习的，所以训练方法是完全不同的。我们想知道它是否真的按照人类的方式行事，或者它是否是一种全新的东西——一种真正的人工智能——它本身就很了不起。”

为了找到答案，他们需要确定人工智能模型正在使用的潜在认知过程，这需要访问软件和用于训练软件的数据，然后进行测试，他们确信软件还没有被给予测试。他们说，这将是决定人工智能应该成为什么的下一步。

韦伯说:“对于人工智能和认知研究人员来说，拥有GPT模型的后端是非常有用的。“我们只是在做输入和输出，它并不像我们希望的那样具有决定性。”

Journal Reference:

Webb, T., Holyoak, K.J. & Lu, H. Emergent analogical reasoning in large language models. Nat Hum Behav, 2023 DOI: 10.1038/s41562-023-01659-w

University of California - Los Angeles. "GPT-3 can reason about as well as a college student, psychologists report: But does the technology mimic human reasoning or is it using a fundamentally new cognitive process?." ScienceDaily. ScienceDaily, 31 July 2023. <www.sciencedaily.com/releases/2023/07/230731110750.htm>.

University of California - Los Angeles. (2023, July 31). GPT-3 can reason about as well as a college student, psychologists report: But does the technology mimic human reasoning or is it using a fundamentally new cognitive process?. ScienceDaily. Retrieved July 31, 2023 from www.sciencedaily.com/releases/2023/07/230731110750.htm

University of California - Los Angeles. "GPT-3 can reason about as well as a college student, psychologists report: But does the technology mimic human reasoning or is it using a fundamentally new cognitive process?." ScienceDaily. www.sciencedaily.com/releases/2023/07/230731110750.htm (accessed July 31, 2023).

热点排行

新闻专题

联系信箱：

粤ICP备09063491号