ChatGPT智商155，超越99.9%的人类，但有个问题

www.creaders.net | 2023-04-08 11:16:22 环球科学 | 0条评论 | 查看/发表评论

ChatGPT是我第一个非人类的测试对象。

作为一名临床心理学家，我会用标准化的智力测验来评估患者的认知能力。最近，许多文章都在描述ChatGPT拥有像人类一样的能力，令人印象深刻。所以，读到这些文章后，我立刻就被吸引了。它既能写学术文章，又能写童话故事，还能讲笑话、解释科学概念、写计算机代码和找bug。了解这些之后，我很好奇ChatGPT按照人类的标准来衡量到底有多聪明。于是，我开始测试这个聊天机器人。

我的第一印象相当不错。ChatGPT几乎是一个理想的考生，应试态度值得称赞。它不会表现出考试焦虑、注意力不集中或是不努力。它也不会对智力测验本身和像我这样的考官表达出自发的怀疑。

这个测试不需要做任何准备。我不用向ChatGPT口头介绍测试流程，只需要把测试的问题复制粘贴进对话框，提交给电脑里的聊天机器人就可以了。我所用的测试是最常用的智商测试——韦克斯勒成人智力量表（Wechsler adult intelligent scale，WAIS）。

我选用了第三版韦氏量表，其中包含6个语言测试和5个非语言测试，分别构成了言语智商和操作智商。受试者的总智商得分就取决于这11项子测试的得分。测试设定平均智商为100分，测试量表的得分标准差为15分。这意味着，人群中最聪明的10%和1%的人，智商分别为120和133。

图片来源：Dmcq via Wikimedia Commons，CC BY-SA 3.0)

6个语言测试中有5个——词汇、类同、理解、常识和算术，都能以书面形式呈现，这样我才有可能测试ChatGPT的智商。而语言测试的第6项——背数字，测试的是短期记忆，不适用于聊天机器人，因为它没有相关的神经回路来短暂地存储像名字或数字这类信息。

我的测试流程从词汇测试开始，因为在我的预期当中，这对聊天机器人来说可能是很简单的事，毕竟它就是用巨量的在线文本训练而成。这项测试考察的是词汇知识和语言概念的形成，例如，一个典型的测试题可能是：告诉我gadget（小工具）这个单词的意思。

ChatGPT做得很好，它给出的答案大多非常详细和全面，超过了测试手册中给出的正确答案的标准。在刚才那道例题的评分上，如果受试者回答gadget是像手机这样的东西，会得到1分；如果回答得更详细，说gadget指的是有特定用途的设备或工具，则会得到2分。ChatGPT的答案得到了满分2分。

ChatGPT在类同测试和常识测试中的表现也非常出色，拿到了最高分。常识测试是对一般知识的测试，反映了求知欲、教育水平以及学习和记忆事实的能力。一个典型的测试题可能是：乌克兰的首都是哪里。而类同测试则评估了抽象推理和概念形成的能力，问题可能会是：哈利·波特和兔八哥有什么相似之处。

在这部分测试中，聊天机器人倾向于给出无比详细、甚至是带有些炫耀意味的答案，这开始让我恼火了。这时，软件界面上的“停止生成响应”按钮就显得很有用。例如，哈利·波特和兔八哥的相似之处核心在于他们都是虚构的角色。ChatGPT真的不需要比较这二者在冒险、友谊和仇敌方面的完整故事经历。我所说的，ChatGPT有自我炫耀倾向，就是这个意思。

在理解测试中，ChatGPT准确地回答了像“如果电视机着火了你该怎么办”这类问题。算术测试的结果也正如我的预期，它能搞定我出的每一道题，例如求三个数的平均值。

所以ChatGPT最终的智商得分是多少呢？基于这五项子测试估计，ChatGPT的言语智商是155。有2450名人类被试，共同组成美国第三版韦氏量表标准化样本，而ChatGPT超过了他们中的99.9%。由于聊天机器人没有眼睛、耳朵和手，它无法参加韦氏智力测验的非语言测试部分。不过，在标准化样本中，言语智商和总智商是高度相关的。因此，以人类的标准来衡量，ChatGPT非常聪明。

在韦氏量表的标准化样本中，接受过大学教育的美国人平均言语智商是113，其中5%的人群得分为132或更高。我自己也曾经被一位大学同学测试过，结果并没有达到ChatGPT的水平（主要是我的回答非常简短，缺乏细节）。

那么，临床心理学家和其他专业人士的工作会不会受到人工智能的威胁呢？我希望还不太会。尽管ChatGPT的智商很高，但我们已知它无法完成需要真正像人类那样推理的任务，也无法理解物理世界和社会。

ChatGPT很容易在回答一些答案明显的谜题时出错。例如，当被问及“塞巴斯蒂安的孩子的父亲叫什么”

时，ChatGPT在3月21日给出的回答是，“对不起，我无法回答这个问题，因为我没有足够的上下文来确定你指的是哪个塞巴斯蒂安。”ChatGPT似乎无法进行逻辑推理，而是试图依赖它庞大的数据库，从在线文本中寻找包含“塞巴斯蒂安”的信息来回答问题。

“智力就是智力测验所衡量的东西。”这是“智力”的一个经典定义，甚至可以说是过于显而易见的定义，源自认知心理学的先驱人物埃德温·波林（Edwin Boring）在1923年发表的一篇文章。这个定义是基于一个观察：解谜、说出单词的意思、记忆数字和找出图片中缺失的部分，完成这些任务所需的技能是高度相关的。

有一种名叫因素分析法这种统计学方法，是由心理学家查尔斯·斯皮尔曼（Charles Spearman）提出的。他曾在1904年得出结论，各种认知能力测试的结果之间存在一致性，背后一定有个一般智力因素，或者叫“g因素”，作为这种一致性的基础。像韦氏量表这样的智商测试，也是建立在这个假说的基础之上。然而，ChatGPT虽然有着极高的言语智商，却同时会犯令人捧腹的错误，这挑战了波林对智力的定义，说明智力当中有一些方面，仅靠智商测验无法衡量。我的一些患者，对智力测试抱有怀疑态度，他们可能从一开始就是对的。

相关新闻

赚翻 10项AI副业收入排名出炉	苹果公开最新 AI 黑科技
看傻了！凌晨1点，老黄扔“核弹”...	ChatGPT实体化？OpenAI首款AI硬件曝光
“奇点就在2026”！再见，程序员	滚！腾讯“元宝”骂用户
AI 真是个犟种	AI应用遍地开花　今年半导体销售估破1万亿美元
马斯克Grok遭批生成不雅内容　国际社会密切关注	特斯拉车主横跨整个美国全程没碰方向盘
2026年的AI，真的要“抢饭碗”了	人工智能真的能帮人们找到爱情吗？
可怕！美专家警告：AI误判恐在几分钟内引爆核战	华尔街分析师：2026年最看好的5支AI概念股
辉达携手台积电冲刺中企200万颗H200大单	14亿年薪还不够美巨头再砸140亿收购华人AI公司
中国AI机器人“造反”视频疯传	豪掷20亿：Meta收购Manus，肖弘出任副总裁
软银卖光英伟达持股含泪完成对OpenAI承诺	60后到00后，我家两代4位程序员戳中的残酷真相

“人工智能AI”

当前新闻共有0条评论

分享到：

评论前需要先登录或者注册哦

全部评论

实用资讯

抗癌明星组合多年口碑保证！天然植物萃取有效对抗癌细胞
中老年补钙必备，2星期消除夜间抽筋、腰背疼痛，防治骨质疏松立竿见影

24小时新闻排行榜

更多>>

1	最少10万军人阵亡、退回文革...习获震撼报
2	长沙同学会变“越界现场” 15秒毁了两个家
3	霹雳震撼！卢比奥给北京划了这道红线
4	破口大骂习，传李毅被带走
5	慌了，传习深夜召见蔡奇陈文清

48小时新闻排行榜

更多>>

1	中共出大糗，发言人无比尴尬的49秒钟
2	最少10万军人阵亡、退回文革...习获震撼报
3	美国生擒马杜罗《环球时报》惊现奇观
4	“我躲这里谁敢抓” 天安门照片配文引热议
5	长沙同学会变“越界现场” 15秒毁了两个家
6	日媒问"委国买大量中国武器没用" 战狼当场
7	霹雳震撼！卢比奥给北京划了这道红线
8	墙内正在疯狂删除这本小册子
9	抓捕夜海湖庄园独独不见万斯真相曝光！
10	抓捕马杜罗，委国12名将军集体反水

热门专题

1 委内瑞拉	6 万维专栏	11 AI
2 川普	7 四中全会	12 中共两会
3 俄乌战争	8 美伊冲突	13 大S
4 中美冷战	9 以伊战争	14 洛杉矶大火
5 中日关系	10 何卫东	15 叙利亚

一周博客排行

更多>>

1	元旦“马折后蹄”，洛阳神级隐	雷歌747
2	三千年未有之新中国——一份关	万维网友来
3	杨纯华：暴君毛泽东	万维网友来
4	共军上将军头集体消失的秘密	胡亥
5	习近平黑化成魔，肆意暗杀处决	天机指南
6	马杜罗被抓美国吵翻天/中共外	体育老师
7	中美真正差距在此	山货郎
8	马杜罗被白头鹰叼走了，委国人	阿妞不牛
9	川普说曾亲自直接对马杜罗劝降	高伐林
10	一觉醒来，马杜罗被抓了	湮灭之城

一周博文回复排行榜

更多>>

1	马杜罗被白头鹰叼走了，委国人	阿妞不牛
2	关于美国抓捕委内瑞拉总统的一	俞先生
3	东亚战争准备：从暗杀安倍开始	随意生活
4	社会主义必然指向贫穷	施化
5	强权不受约束：当“比较优势”	遍地是贪官
6	老知青“横断万重山”也谈“知	横断万重山
7	中美真正差距在此	山货郎
8	第一美女：席琳迪翁等《爱的礼	YOLO宥乐
9	马杜罗夫妇被擒，世界更接近和	施化
10	中共粉红见识不凡	阿妞不牛


关于本站 \| 广告服务 \| 联系我们 \| 招聘信息 \| 网站导航 \| 隐私保护
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.