|
据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。
近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。
实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。
以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了“幻觉”现象。
实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。
当前新闻共有0条评论 | 分享到: |
|
||||||||||
评论前需要先 登录 或者 注册 哦 |
24小时新闻排行榜 | 更多>> |
1 | 吴京永远不明白,护照的价值是受人尊重 |
2 | 习近平和川普通话后,北京的态度顷刻变了 |
3 | 川普玩两个中国,习近平吞奇耻大辱 |
4 | 川普逼习近平表态 韩正难敷衍 |
5 | 川普预告:明天会签署和废除很多命令 包括 |
48小时新闻排行榜 | 更多>> |
1 | 不论男女 走路有这6个表现 不想长寿都 |
2 | 美国穷人大多是白人 数量是贫穷黑人的2倍 |
3 | 470亿美元的神秘华人首富家族 “藏”了17 |
4 | 美国梦醒? 哈利梅根被揭霸凌 无脑10大真相 |
5 | 习慰问老军头 党媒信号异常 |
6 | 中国机械狗装上微型导弹 |
7 | 徐帆收养多年的女儿朵朵 竟是冯小刚的私生 |
8 | 狗血华人豪门对战 2华人家庭互争7处豪宅 |
9 | 乌克兰,突传重大决定 |
10 | 习近平扰乱解放军 |
一周博客排行 | 更多>> |
1 | 两条运河,一场骗局 | 湮灭之城 |
2 | 丁薛祥已成当前高层博弈的焦点 | 胡亥 |
3 | 辛峰:看热闹不嫌事大 川普吞 | 万维网友来 |
4 | 党国威风扫地 又哑口无言的段 | 旅泉 |
5 | 习近平初期执政就是掩护江泽民 | 胡亥 |
6 | 中共才是电信诈骗的元凶! | 叔涵心语 |
7 | 与荣家的一点瓜葛 | 大宗师 |
8 | 两万五千里长征 被GPS戳翻了 | 旅泉 |
9 | 中国书业秘辛:《尼罗河上的惨 | 壹嘉出版 |
10 | 曾庆红助力习近平 习张博弈暂 | 胡亥 |
一周博文回复排行榜 | 更多>> |