Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了280,616,651字

a崽

在文章《比亚迪腾势 N7 车型推出限时优惠政策，2000 元可抵 5.2 万元》中回复：
```
哇！现在这个价格太顶了吧！赶紧入手！
```

野人霸霸

终于看到关注的车型，改款了，这波颜值，是我喜欢的，如果上市后的价格给力，就冲了，腾势这波改款真棒！

我是萌萌萌萌哒

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
从去年就开始关注，终于等到改款了，眼前一亮，颜值不错，期待上市价格
```

海绵小宝宝P

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：

希望将来公布的价格能给力一点，这次改款已经非常让我心动了，腾势还是懂车主的喜好的！

Wmx0819

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
改的好，改的秒，改的呱呱呱。N7大麦大麦大麦
```
瘦瘦不瘦

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
赵总主打就是一个听劝哈哈哈
```

栗子羊羊羊

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：

这车改款改的不错.眼前一亮的感觉，挺好看的，看来腾势去年认真听了车友的意见，2024大动作，够吸引人了

甜梦国的睡仙

在文章《东风纳米 01 纯电小车在襄阳量产下线：预售 7.98 万元起，明日上市》中回复：
```
这个设计很可以啊，比较符合当代人审美
```
追逐明天5555

在文章《科技昨夜今晨 0724：我国载人登月火箭主发动机已达到试验要求、国产核磁共振技术成功突破国外长期封锁、蔚来副总裁回应“部分充电桩不对其它车主开放”》中回复：
```
印度真的是有点无语，比亚迪成功躲过一劫
```

好好好看

在文章《因安全问题，印度拒绝比亚迪 10 亿美元建厂提案》中回复：

比亚迪公司提出了在印度合资建立新能源汽车工厂的计划，但遭到了印度的拒绝。

该文章投稿至Nemo社区资讯板块复制链接

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

发布于 2024/04/21 00:27 53浏览 0回复 4,049字

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

近日，LLM 竞技场更新了战报，Command R + 推出不到一周，就成了历史上第一个击败了 GPT-4 的开源模型！目前，Command R + 已经上线 HuggingChat，可以免费试玩。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

排行榜地址： https://huggingface.co/ spaces / lmsys / chatbot-arena-leaderboard

截至小编码字的这个时间，竞技场排行榜更新到了 4 月 11 号，Command R + 拿到了 2.3 万的投票，综合得分超越了早期版本的 GPT-4（0613），和 GPT-4-0314 版本并列第 7 位，—— 而它可是一个开源模型（不允许商用）。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

这边建议 Altman，不管是 GPT-4.5 还是 GPT-5，赶紧端上来吧，不然家都被偷没了。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

不过事实上 OpenAI 也没闲着，在被 Claude 3 一家屠榜，忍受了短暂的屈辱之后，很快就放出了一个新版本（GPT-4-Turbo-2024-04-09），直接重归王座。

这也导致排行榜上大家的排名瞬间都掉了一位，本来 Command R + 在 9 号的版本中是排位全球第 6 的。

—— 大哥你不讲武德！

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

尽管如此，Command R + 作为首个击败了 GPT-4 的开源模型，也算是让开源社区扬眉吐气了一把，而且这可是大佬认可的堂堂正正的对决。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

Cohere 的机器学习总监 Nils Reimers 还表示，这还不是 Command R + 的真实实力，它的优势区间是 RAG 和工具使用的能力，而这些外挂能力在 LLM 竞技场中没有用到。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

事实上，在 Cohere 官方将 Command R + 描述为「RAG 优化模型」。

「割麦子」和最大的开源模型

毫无疑问，Cohere 是当前 AI 领域的独角兽，而它的联合创始人兼 CEO，正是大名鼎鼎的「Transformer 八子」之一的「割麦子」（Aidan Gomez）。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

Aidan Gomez

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

作为 Transformer 最年轻的作者，一出手就是最大规模的开源模型：

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

正面对战 claude-3, mistral-large, gpt-4 turbo；

1040 亿参数；

使用多步骤工具和 RAG 构建；

支持 10 种语言；

上下文长度为 128K；

基于上下文的引用和响应；

针对代码能力进行了优化；

提供 4 位和 8 位的量化版本。

Command R + 专为实际企业用例而构建，专注于平衡高效率和高精度，使企业能够超越概念验证，并通过 AI 进入生产。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

huggingface 地址： https://huggingface.co/ CohereForAI / c4ai-command-r-plus 量化版本： https://huggingface.co/ CohereForAI / c4ai-command-r-plus-4bit

—— 当然了，1040 亿的参数量，相比于前段时间 Musk 开源的 Grok-1（3140 亿）还差了一些，但 Command R + 并非 Grok 那种 MoE 架构，

所以这 1040 亿参数是实打实的完全用于推理，而 Grok-1 的活跃参数为 860 亿 —— 从这个角度来看，说 Command R + 是目前规模最庞大的开源模型也不为过。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

作为 Command R 的进化版本，进一步全面提高了性能。主要优势包括：

-高级检索增强生成（RAG）与引用以减少幻觉

-10 种主要语言的多语言覆盖，支持全球业务运营

-工具的运用以自动化复杂的业务流程

在性能优于竞品的同时，Command R + 还提供了相对低得多的价格。

目前，Cohere 已经与多家大厂合作，并将 LLM 部署到了 Amazon Sagemaker 和 Microsoft Azure。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

上面左图展示了 Azure 上可用的模型，在三个关键功能方面的性能比较（模型在基准测试中的平均得分）：多语言、RAG 和工具使用。

右图比较了 Azure 上可用模型的每百万个输入和输出 token 成本。

行业领先的 RAG 解决方案

企业想通过专有数据定制自己的 LLM，就必然绕不开 RAG。

Command R + 针对高级 RAG 进行了优化，可提供高度可靠、可验证的解决方案。

新模型提高了响应的准确性，并提供了减轻幻觉的内联引用，可帮助企业使用 AI 进行扩展，以快速找到最相关的信息，

支持跨财务、人力资源、销售、营销和客户支持等业务职能部门的任务。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

上面左图是在人类偏好上的评估比较结果，包括文本流畅度、引文质量和整体效用，其中引文是在连接到源文档块的摘要上衡量的。

这里使用了 250 个高度多样化的文档和摘要请求的专有测试集，包含类似于 API 数据的复杂指令。基线模型经过了广泛的提示设计，而 Command R + 使用 RAG-API。

右图衡量了由各种模型提供支持的多跳 REACT 代理的准确性，可以访问从维基百科（HotpotQA）和互联网（Bamboogle、StrategyQA）检索的相同搜索工具。

HotpotQA 和 Bamboogle 的准确性由提示评估者（Command R、GPT3.5 和 Claude3-Haiku）的三方多数投票来判断，以减少已知的模型内偏差。

这里使用人工注释对一千个示例子集进行了验证。StrategyQA 的准确性是使用以是 / 否判断结尾的长格式答案来判断的。

使用工具自动执行复杂流程

作为大语言模型，除了摄取和生成文本的能力，还应该能够充当核心推理引擎：能够做出决策并使用工具来自动化需要智能才能解决的困难任务。

为了提供这种能力，Command R + 提供了工具使用功能，可通过 API 和 LangChain 访问，以无缝地自动化复杂的业务工作流程。

企业用例包括：自动更新客户关系管理（CRM）任务、活动和记录。

Command R + 还支持多步骤工具使用，它允许模型在多个步骤中组合多个工具来完成困难的任务，—— 甚至可以在尝试使用工具并失败时进行自我纠正，以提高成功率。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

上图为使用 Microsoft 的 ToolTalk（Hard）基准测试，和伯克利的函数调用排行榜（BFCL）评估对话工具使用和单轮函数调用功能。

对于 ToolTalk，预测的工具调用是根据基本事实进行评估的，总体对话成功指标取决于模型召回所有工具调用和避免不良操作（即具有不良副作用的工具调用）的可能性。

对于 BFCL，这里使用了 2024 年 3 月的版本，在评估中包含了错误修复，并报告了可执行子类别的平均函数成功率得分。通过额外的人工评估清理步骤验证了错误修复，以防止误报。

多语言支持

Command R + 在全球业务的 10 种关键语言中表现出色：中文、英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

上图为 FLoRES（法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语和中文）以及 WMT23（德语、日语和中文）翻译任务的模型比较。

此外，Command R + 还具有一个优秀的分词器，可以比市场上其他模型使用的分词器更好地压缩非英语文本，能够实现高达 57% 的成本降低。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

上图比较了 Cohere、Mistral 和 OpenAI 分词器为不同语言生成的 token 数量。

Cohere 分词器生成的表示相同文本的 token 要少得多，尤其在非拉丁文字语言上减少的幅度特别大。比如在日语中，OpenAI 分词器输出的 token 数量是 Cohere 分词器的 1.67 倍。

价格

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

网友评价

Command R + 的开源点燃了网友们的热情，网友表示：「GPT-4 级性能，在家运行」。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

不知道这 3.15G 的内存占用是什么情况？

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

「感谢 Cohere 做了 Mistral 没有做的事情」。

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

「根据我有限的初始测试，这是目前可用的最好的模型之一...... 而且它绝对有一种风格，感觉很好。感觉不像是 ChatGPT 主义的填充模型。」

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

—— 是时候为自己加一块显卡了！

上线 HuggingChat

目前，Command R + 已经上线 HuggingChat（https://huggingface.co/ chat），最强开源模型，大家赶快玩起来！

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

问：等红灯是在等红灯还是等绿灯？

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

解释一下咖啡因来自咖啡果：

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

请回答弱智吧问题：陨石为什么每次都能精准砸到陨石坑？

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

我想配个 6000 多的电脑，大概要多少钱？

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

HuggingFace 联创 Thomas Wolf 曾表示，最近在 LLM 竞技场上的情况发生了巨大变化：

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

Anthropic 的 Claude 3 家族成了闭源模型的赢家（曾经）；而 Cohere 的 Command R + 是开源模型的新领导者。

2024 年，在开源和闭源两条道路上，LLM 都发展迅猛。

最后，放上两张 LLM 竞技场的当前战况：

模型 A 在所有非平局 A 与 B 战斗中获胜的比例：

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

每种模型组合的战斗计数（无平局）：

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

参考资料：

https://venturebeat.com/ai/coheres-command-r-now-available-on-huggingchat/
https://twitter.com/lmsysorg/status/1777630133798772766

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/763/145.htm]

本文标签
ai 开放源代码大模型

上一个文章：世界首套！我国为月球绘制高清地质“写真集”

下一个文章：鸿海旗下元富科技推出 AFOX RTX 4080 显卡，采用涡轮散热设计

点了个评

Echo

最近回复

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

「割麦子」和最大的开源模型

行业领先的 RAG 解决方案

使用工具自动执行复杂流程

多语言支持

价格

网友评价

上线 HuggingChat

点击排行

没有找到这位爷的热门文章哦~

最新文章

面壁智能发布 Eurux-8x22B 开源大模型：代码性能超越 Llama3-70B

沉浸式生存游戏《血清》宣布 5 月 24 日开启 Steam 抢先体验：基于虚幻 5 引擎

与领导层薪酬挂钩，微软将安全视为新的首要任务

国际机器学习大会 ICML 2024 放榜：投稿量近万篇，审稿意见下滑严重

《割绳子重制版》《Good Job!》《惊奇块魂》游戏开发商 Paladin 工作室宣布关闭

极空间私有云 NAS 与 Rokid 眼镜合作，推出 AR 端观影应用

AI 入侵华尔街，高盛、摩根大通：66% 初级分析师有被取代风险

OpenAI 阿尔特曼本人确认：神秘 gpt2 不是 GPT-4.5

达芬奇 DaVinci Resolve 19 Public Beta 2 公测版发布：媒体管理工具支持修剪视频文件中的音频

世界最高天文台 TAO 在智利落成，海拔 5640 米