万维读者网 > 数码科技 > 正文  

OpenAI调查:GPT-4o及4o-mini模型性能下降

www.creaders.net | 2025-01-20 13:01:23  快科技 | 0条评论 | 查看/发表评论

据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。

近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。

实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。

具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。

以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了“幻觉”现象。

实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。

   0


24小时新闻排行榜 更多>>
1 惊传:外交部官员携密件叛逃俄罗斯 倒逼王
2 马斯克,突爆大消息!
3 不要看走眼,他才是结束习的“狠角色”
4 刚刚,见证历史!近10万人爆仓
5 上海深圳爆倒闭潮 失业大军现街头
热门专题
1
美伊冲突
6
俄乌战争
11
大S
2
以伊战争
7
万维专栏
12
洛杉矶大火
3
四中全会
8
何卫东
13
叙利亚
4
中美冷战
9
AI
14
苗华被抓
5
川普
10
中共两会
15
美国大选
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2025. Creaders.NET. All Rights Reserved.