![]() |
|
假设AI是一名参加大学入学考试的学生,它会得到怎样的成绩呢?韩联社与延世大学教授金时浩(김시호)的研究团队合作,使用ChatGPT(GPT-5)、Gemini(2.5Flash)、Perplexity(Sonar)的免费版本以及DeepSeek的最新模型,挑战测验2026年韩国大学入学考试(대학수학능력시험,简称CSAT)的韩语、英语与数学。
根据《韩联社》 报道,研究团队让4款热门AI参加大考,实测如果这些人工智慧是真正的考生,它们可能会就读哪些大学。为了确保测试环境与考试规定和韩国大学入学考试相同,所有的AI禁止搜寻网络,并被要求自行解决问题。
在测试中获得第一名高分的模型是ChatGPT,尤其“数学”表现出色,尽管今年的数学题目,因穿插了大量高难度题目而被评为难度较高的考科,但ChatGPT仍然取得了优秀成绩。
Gemini在数学方面表现出了较高的准确率,与ChatGPT类似,但可惜其韩语得分垫底。
而整体得分最低的是Perplexity,测试过程中经常出错,例如在测试过程中突然拒绝回答,而且难以准确测量测试时间,此外,还违反CSAT考试规定,像是在考试期间上网搜寻资讯。
金时浩(김시호)教授表示:“尽管人工智慧模型取得了显著进步,但它们在韩语的表现仍然不尽如人意,似乎无法解决我们所设想的高层次问题”。

ChatGPT在研究中赢得韩国大学入学考试的最高分。示意照。(美联社)
| 当前新闻共有0条评论 | 分享到: |
|
||||||||||
| 评论前需要先 登录 或者 注册 哦 |
||||||||||||
| 24小时新闻排行榜 | 更多>> |
| 1 | 习家“储君”出事?皇侄齐明正突然消失 |
| 2 | 跨年夜,中国多个大城市现诡异一幕 |
| 3 | 北京七环大爆炸,传老习两口子躲了整整两天 |
| 4 | 大蒜是尿酸的杀手?想要肾脏健康这些蔬菜要 |
| 5 | 川普驱逐移民政策获一项重大胜利 |
| 48小时新闻排行榜 | 更多>> |
| 一周博客排行 | 更多>> |
| 一周博文回复排行榜 | 更多>> |
| 1 | 台湾问题:麻将停牌 | 随意生活 |
| 2 | 川普到底卖了乌克兰没有? | 山蛟龙 |
| 3 | 梅兰芳和兩位仍然在世的入室弟 | 玉质 |
| 4 | 第一美女:《越人歌》-宋祖英 | YOLO宥乐 |
| 5 | 做这道题,知道明年你要去哪? | 末班车 |
| 6 | 关于离岸爱国 | 阿里克斯Y |
| 7 | 海外中文出版的新路基本开通, | 高伐林 |
| 8 | 70%美国大学毕业生找不到工作 | 乐维 |
| 9 | 大湾区的整合梦 | 文庙 |
| 10 | 给菓趣的回复,你至少有放风的 | renweida |