斯坦福大学研究发现,AI聊天机器人ChatGPT的表现很不稳定
,斯坦福大学的一项新研究发现,热门生成式人工智能聊天机器人 ChatGPT 的能力在几个月内有所波动。
斯坦福大学的团队评估了 ChatGPT 在几个月内如何处理不同的任务。他们发现,ChatGPT 的能力随时间的推移而出现了不一致。目前,ChatGPT 有两个版本 —— 免费的 GPT-3.5 模型和更智能、更快速的付费 GPT-4 版本。研究人员发现,GPT-4 在 3 月份能够有效地解决数学问题,识别质数的准确率为 97.6%。三个月后,其准确率下降到了 2.4%。而另一方面,GPT-3.5 却变得更好,从 7.4% 的准确率提高到了 86.8%。
研究人员还注意到,在编写代码和视觉推理方面也有类似的波动。斯坦福大学计算机科学教授 James Zou 称:“当我们调整一个大型语言模型来提高它在某些任务上的表现时,那可能会有很多意想不到的后果,可能会损害这个模型在其他任务上的表现…… 这个模型回答问题的方式有各种各样的相互依赖性,这可能导致我们观察到的一些恶化行为。”
研究人员认为,结果并不能真正反映 ChatGPT 性能的准确性状态,而是显示了微调模型带来的意外后果。本质上,当修改模型的一部分来改善一个任务时,其他任务可能会受到影响。为什么会这样很难确定,因为没有人知道 ChatGPT 是如何运作的,而且它的代码也不是开源的。
随着时间的推移,研究人员注意到,ChatGPT 的回答不仅变得不太准确,而且还停止了解释其推理过程。
由于 ChatGPT 的运作方式,要研究和衡量它的表现可能很困难,这项研究强调了观察和评估驱动 ChatGPT 等工具的大型语言模型性能变化的必要性。该研究已经在 arXiv 上发布,并正在等待同行评审,IT之家附链接在此。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
热门阅读
- 1研究人员开发新型仿生检修工具,以“蠕
- 2《博德之门3》跨平台多人游戏“已提上
- 3蚂蚁集团明日发布全栈布局、纯自研的A
- 4持牌消金半年报观察一:头部争夺战谁最
- 5探索珠宝产业数字化转型路径,2023
- 6资产配置,找到低相关的资产
- 7马斯克1.55亿粉丝中付费订阅者仅4
- 8摩根士丹利分析师:iPhone15P
- 9报道称微软曾开发Xbox云游戏掌机原
- 10新基金公司直面渠道尾佣压力
- 11满足用户体验,向美好跃迁 看长安汽
- 122023长安SuperDay与用户共
- 13极星CEO:今年12月发布智能手机同
- 14微信Windows版3.9.7更新:
- 15沙漠园艺生存游戏《荒原疗者》上架St
- 16《这是我的战争》开发商11bit发布
- 17智能升级,尽在掌握!骆驼蓄电池全国联
- 18瑞士一学院研发出机器人导盲犬:支持自
- 19EpicGamesCEO支持AI在游
- 20华为Vision智慧屏SE3今晚8点
- 21能链智电获得2亿元储能订单,致力于成
- 22制作人青沼英二:《塞尔达传说:王国之
- 23真功夫决战“佛山之巅”,奇瑞混动双星
- 24东风纳米,为生活带来美好仪式感
- 25美妆空瓶回收车进社区银泰百货推出倡导
- 26微信上线“腾讯混元助手”小程序目前仅
- 27持续提高“向北开放”水平,第四届中蒙
- 28为热爱上场,“伊利营养2030”用营
- 29史上最强暑期档:谁狂飙?谁掉队?
- 30德国供应商对中国车企进军欧洲表示欢迎
汽车点评网 分析汽车
关注汽车点评网,收听和分享“汽车秘密”
携手汽车点评网,为您提供更多汽车行业新鲜货。