UC伯克利LLM准中文排行榜来了！GPT-4稳居第一，国人开源RNN模型冲进前六_天富平台-全球注册登录站

某某潮流网，最新潮鞋资讯分享!

微信号：weixin888

手机版

当前位置：主页 > 天富登录 > 静态开箱 UC伯克利LLM准中文排行榜来了！GPT-4稳居第一，国人开源RNN模型冲进前六

UC伯克利LLM准中文排行榜来了！GPT-4稳居第一，国人开源RNN模型冲进前六

时间：2023-06-08 17:47人气：编辑：佚名

编辑：好困

前段时间，来自LMSYS Org（UC伯克利主导）的研究人员搞了个大新闻——大语言模型版排位赛！
这次，团队不仅带来了4位新玩家，而且还有一个（准）中文排行榜。
OpenAI GPT-4
OpenAI GPT-3.5-turbo
Anthropic Claude-v1
RWKV-4-Raven-14B（开源）
毫无疑问，只要GPT-4参战，必定是稳居第一。
不过，出乎意料的是，Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二，而且只比GPT-4差了50分。
相比之下，排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。
而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现，超越一众Transformer模型排到了第6——除Vicuna模型外，RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。

此外，团队还分别制作了「仅英语」和「非英语」（其中大部分是中文）这两个单独的排行榜。
可以看到，不少模型的排位都出现了明显的变化。
比如，用更多中文数据训练的ChatGLM-6B确实表现更好，而GPT-3.5也成功超越Claude排到了第二的位置。

本次更新的主要贡献者是盛颖、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。
盛颖是LMSYS Org的3个创始人之一（另外两位是Lianmin Zheng和Hao Zhang），斯坦福大学计算机科学系的博士生。
她也是之前爆火的、可以在单GPU上可以跑175B模型推理的系统FlexGen的一作，目前已获8k星。

论文地址：https://arxiv.org/abs/2303.06865
项目地址：https://github.com/FMInference/FlexGen
个人主页：https://sites.google.com/view/yingsheng/home
「开源」VS「闭源」

在社区的帮助下，团队共收集了13k条匿名投票，并且有了一些有趣的发现。
在三个专有模型中，Anthropic的Claude模型比GPT-3.5-turbo更受用户欢迎。
而且，Claude在与最强大的GPT-4竞争时，也表现得非常有竞争力。

从下面这个胜率图来看，GPT-4和Claude之间的66场非平局比赛中，Claude赢得了32场（48%）比赛。

所有非平局A vs B对战中，模型A胜利的比例
然而，其他开源模型与这三个专有模型之间，依然存在着很大的差距。
特别是，GPT-4以1274的Elo分数领跑排行榜。这比榜单上最好的开源替代——Vicuna-13B——要高出近200分。
在去掉平局后，GPT-4在与Vicuna-13B对战时赢得了82%的比赛，甚至在与前一代GPT-3.5-turbo对战时赢得了79%的比赛。
然而，值得注意的是，排行榜上的这些开源模型通常具有比专有模型更少的参数，范围在30亿 - 140亿之间。
实际上，最近在LLM和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。
谷歌的最新PaLM 2就是一个很好的例子：我们知道PaLM 2在使用较小模型大小时，比其前一代实现了更好的性能。
因此，团队对开源语言模型迎头赶上充满乐观。
在下图中，用户提出了一个需要仔细推理和规划的棘手问题。虽然Claude和GPT-4提供了类似的答案，但Claude的回应稍微好一些。
然而，由于采样的随机性，团队发现这种情况并不能总能复刻。有时GPT-4也能像Claude一样给出相同的顺序，但在这次生成试验中失败了。
另外，团队注意到，当使用OpenAI API和ChatGPT接口时，GPT-4的行为略有不同，这可能是由于不同的提示、采样参数或其他未知因素导致的。

用户更喜欢Claude而不是GPT-4的一个例子
在下图中，尽管Claude和GPT-4都具有惊人的能力，但它们仍在处理这类复杂的推理问题上挣扎。

一个用户认为Claude和GPT-4都错了的例子
除了这些棘手的情况，还有许多并不需要复杂推理或知识的简单问题。
在这种情况下，像Vicuna这样的开源模型可以与GPT-4表现相当，因此我们可能可以使用稍微弱一些（但更小或更便宜）的大型语言模型（LLM）来替代像GPT-4这样更强大的模型。
自从三个强大的专有模型参与以来，聊天机器人竞技场的竞争从未如此激烈。
由于在与专有模型对战时，开源模型输掉了不少比赛，因此它们的Elo分数都有所下降。
最后，团队还计划开放一些API，让用户可以注册自己的聊天机器人来参加排位赛。
参考资料：
https://lmsys.org/blog/2023-05-10-leaderboard/

上一篇：可爱二次元女头像合集（中）
网站首页 返回栏目
下一篇：专访星竞威武CEO何猷君：与NIP合并，打造“电竞新皇马”

标签：模型开源比赛

相关资讯

小轿车送货接单软件小轿车送货接单软件哪个最好

SQLite - can I use placeholder for table names？

Get Math Help ｜ Chegg.com

2024美术学专业录取分数线一览表！附最好50所大学排名

每年退役近千人哪儿是电竞选手的“下半场”？

Power Query error 'The key didn't match any rows i

热门频道

球鞋

潮流

评测

百科

个性

2018圣诞大战詹姆斯上脚lbj16超人配色圣诞大战颜

NBA常规赛被上脚次数最多的球鞋有哪些 NBA常规赛

2019-11-11CJ麦科勒姆专属空袭5圣诞PE实物细节赏析本赛季

2019-11-112019年NBA中国赛在哪举办 2019年NBA中国赛门票在哪

2019-11-112019NBA全明星第二轮票选结果哈登KD没进首发韦德

2019-11-11米切尔签名鞋专属logo曝光米切尔值得拥有个人签

2019-11-11NBA本赛季五大控卫排名 NBA联盟前五控卫排名

2019-11-11NBA球星搞笑外号有哪些 NBA球星搞笑外号盘点

2019-11-11佛罗里达鳄鱼队专属AJ4实物赏析 AJ4有哪些好看的

2019-11-11近年NBA进步最快的五位球星 NBA里哪些球星成长最

2019-11-11弗兰克梅森上脚音速7 李宁音速7NBA赛场首次亮相

2019-11-11韦德之道7没有圣诞配色往年韦德圣诞大战上脚的

2019-11-11巴特勒上脚AJ Jumpman Omega发售信息 Jordan Jumpman Om

2019-11-112019全明星新秀赛名单确定 2019NBA全明星赛有哪些

2019-11-11NBA全明星正赛得分最高的是谁 NBA全明星正赛单场

adidas Superstar会不会过时阿迪贝壳头你还在穿吗

李宁将继EDG联名之后与RNG再度联名 RNG x LI-NING联名

2019-11-112018最贵的AJ是哪些把2018年所有的AJ买下来需要多

2019-11-11AJ5联名詹姆斯15上脚欣赏 AJ5 x 詹姆斯15什么时候发

2019-11-11LEGO®2019中国限定单品在哪买 LEGO®2019中国限定单

2019-11-11Nike大LOGO外套Ambush联名实物欣赏 Nike联名Ambush大衣

2019-11-11PALACE“斑马”系列一共有哪些款式 PALACE“斑马”

2019-11-11哪些手机玩游戏不卡优秀游戏手机推荐

2019-11-11菲董联名PW中国年配色曝光 PW是什么

2019-11-11年会穿什么西装合适年会西装穿什么颜色好看呢

2019-11-11匡威帆布鞋有多少配色各种配色匡威帆布鞋搭配

2019-11-11老爹鞋真的烂大街了吗女生穿搭老爹鞋街拍示范

2019-11-11西裤+球鞋怎么搭配才好看西裤+球鞋搭配技巧

2019-11-11男生冬季围巾怎么系潮流好看的男生冬季围巾搭

2019-11-11AJ4猛龙国内发售时间 AJ4猛龙上脚图欣赏

竞赛试题

小轿车送货接单软件小轿车送货接单软件哪个最好

2025-09-236的意思_词语解释_成语出处_六的释义_百度汉语教育

2025-09-23SQLite - can I use placeholder for table names？

2025-09-238个成人资源网站大盘点：探索情色世界的秘密

2025-09-23Get Math Help ｜ Chegg.com

2025-09-23杨颖的爸爸什么名字？

2025-09-232024美术学专业录取分数线一览表！附最好50所大学排名

2025-09-238大免费AI口语软件，颠覆英语口语学习范式

2025-09-23每年退役近千人哪儿是电竞选手的“下半场”？

2025-09-23Power Query error 'The key didn't match any rows i

2025-09-232025年大学生线上兼职平台推荐：5个热门网站助你轻松找兼职

2025-09-2320xx年三年级暑假计划表三年级暑假学习计划样例【8篇】

2025-09-23学电竞有出路吗？

2025-09-23Where do I find the bonus quizzes

Pure boost和Ultra boost有什么区别 Pure boost和Ultra bo

Hanes品牌怎么样 Hanes品牌是奢侈品吗

2019-11-11阿迪达斯bounce是什么技术 adidas bounce缓震效果怎么

2019-11-11clarks和ecco哪个好其乐和爱步有什么区别

2019-11-11匡威开口笑和all star尺码有区别吗开口笑和all

2019-11-11Panama Jack是什么品牌 Panama Jack质量如何

2019-11-11亚瑟士和鬼冢虎区别在哪鬼冢虎是哪个国家的牌

2019-11-11篮球鞋鞋底硬怎么回事鞋底什么材质的比较好

2019-11-11匹克鞋子质量怎么样匹克属于什么档次

2019-11-11耐克华莱士跑鞋有什么特点华莱士一代和二代有

2019-11-11慢跑鞋和跑鞋有什么区别慢跑鞋哪个牌子好

2019-11-11空军一号有没有气垫空军一号带气垫和无气垫的

2019-11-11耐克Epic React是什么 Epic React和React有区别吗

2019-11-11匡威鞋子好在哪匡威鞋子为什么这么贵

2019-11-11耐克Shox是什么技术耐克Shox为什么没了

保罗独自带队仍能取胜火箭能让哈登安心养伤

怀孕期间能跑步吗怀孕期间运动注意事项

2019-11-11追梦格林炮轰裁判遭罚款格林的火爆脾气需要改

2019-11-11阿尔巴卡大衣怎么保养阿尔巴卡衣物怎么清洗

2019-11-11棒球帽怎么清洗帽子变形了怎么恢复

2019-11-11划船机减肥效果如何划船机正确锻炼方法

2019-11-11巴尔德斯现在在哪里巴尔德斯正式退役

2019-11-11儿童健身好不好 12岁女孩Elle沉迷健身

2019-11-11小托马斯缺阵228天迎来复出首秀完美发挥获满堂

2019-11-11卧推应该怎样练卧推的科学训练方法

2019-11-11每天200俯卧撑可以增肌吗锻炼每天200俯卧撑有效

2019-11-11AJ3黑水泥真假对比 AJ3黑水泥2018复刻版鉴定方法

2019-11-11哈登2级腿筋拉伤至少缺席两周时间

2019-11-11为何威少砍三双就无法赢球威少需要为球队做什

2019-11-11豆豆鞋变形了怎么办豆豆鞋可以穿多久

精彩推荐

热门标签

热门排行

官方微信官方微博百家号

网站简介 | 意见反馈 | 联系我们 | 法律声明 | 广告服务

Copyright © 2002-2022 天富平台-全球注册登录站版权所有备案号：粤ICP备xxxxxxx号

平台注册入口