Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了282,099,911字

小细节

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
CS75 PLUS算是我今年最期待的车型了
```
想念一个人

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
长安CS75P还是很不错啊，身边的人评价都可以，我对新车很有信心
```
蝴蝶的翅膀

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
cs75plus口碑怎么样，网上随便一搜就能搜到，不用多说，看新车表现吧
```
飞天小牛

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
如果还是现在的价格，必入一辆！
```
幸福小胖珠

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
我买车主要看口碑，cs75plus口碑不错，新我肯定会去试驾的
```
a崽

在文章《比亚迪腾势 N7 车型推出限时优惠政策，2000 元可抵 5.2 万元》中回复：
```
哇！现在这个价格太顶了吧！赶紧入手！
```

野人霸霸

终于看到关注的车型，改款了，这波颜值，是我喜欢的，如果上市后的价格给力，就冲了，腾势这波改款真棒！

我是萌萌萌萌哒

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
从去年就开始关注，终于等到改款了，眼前一亮，颜值不错，期待上市价格
```

海绵小宝宝P

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：

希望将来公布的价格能给力一点，这次改款已经非常让我心动了，腾势还是懂车主的喜好的！

Wmx0819

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
改的好，改的秒，改的呱呱呱。N7大麦大麦大麦
```

该文章投稿至Nemo社区资讯板块复制链接

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

发布于 2022/05/04 16:00 451浏览 0回复 3,034字

感谢IT之家网友 Sancu 的线索投递！

千亿级参数 AI 大模型，竟然真的能获取代码了？！

一觉醒来，AI 圈发生了一件轰动的事情：Meta AI 开放了一个“重达”1750 亿参数的大语言模型 OPT-175B，不仅参数比 GPT-3 的 3750 亿更少，效果还完全不输 GPT-3。

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

这意味着 AI 科学家们，终于可以“撬开”像 GPT-3 这样的大模型，看看里面到底有些什么秘密了。之前 GPT-3 虽然效果惊艳但不够开放，源代码独家授权给了微软，连马斯克都批评过 OpenAI 不够 open。

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

虽然论文就在那里，想要在此之上做进一步研究的话就得先复现一个出来再说。而这一次，Meta 从完整模型到训练代码、部署代码全部开放。有人甚至在官宣之前就摸到还没上传好的 GitHub 仓库去蹲点了。

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

还有人艾特 OpenAI 试图“引战”：

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

那么，Meta 大模型有何特点、如何做到绿色低能耗，又为何要对外开放？一起来看看。

用 16 块 V100 就能跑起来

OPT 全称 Open Pre-trained Transformer Language Models，即“开放的预训练 Transformer 语言模型”。相比 GPT，名字直接把 Generative 换成了 Open，可以说是非常内涵了。（手动狗头）在论文中，Meta AI 也不避讳宣称 OPT-175B 就是对标 GPT-3，还暗示一波自己更环保：

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

Meta AI 对此解释称，OPT 就是奔着开放代码去的，为了让更多人研究大模型，环境配置肯定是越经济越好。这不，运行时产生的碳足迹连 GPT-3 的 1/7 都不到，属实省能又高效。为了方便研究人员“量力而行”，Meta AI 搞出了各种大小的 OPT 模型，从 125M 参数到 1750 亿参数的不同大小模型都有。其中，660 亿参数的模型还在制作中，马上也会和大伙儿见面：

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

所以，最大的 OPT-175B 模型究竟有多高效，又是怎么做到的？

性能方面，Meta AI 针对 OPT-175B 和 GPT-3，用 14 个 NLP 任务进行了测试。结果表明，无论是零样本学习（zero-shot）还是多样本学习（Multi-shot），OPT 在这些任务上的平均精度都与 GPT-3 相差不大。其中虚线为 GPT，实线为 OPT：

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

△ 左为零样本学习，右为多样本学习

再看具体任务。在对话任务中，采用无监督学习的方法训练 OPT-175B，效果和监督学习训练的几类模型相近：

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

仇恨言论检测任务上的效果，更是完全超过 Davinci 版本的 GPT-3 模型（在 GPT-3 的四个版本中是效果最好的）：

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

训练硬件方面，Meta AI 用了 992 块英伟达 A100 GPU（80GB）训练 OPT，平均每块 GPU 的计算效率最高能达到 147 TFLOP / s。

这个效率，甚至比英伟达自家研究人员用起来还高，大约超过 17% 左右。Meta AI 透露称，一方面是采用了自家推出的一款名叫 FSDP（Fully Sharded Data Parallel）的 GPU 内存节省工具，使得大规模训练的速度比传统方法快上 5 倍左右；另一方面他们也借鉴了英伟达 Megatron-LM 模型的张量并行方法，将一个运算分布到多个处理器上同时进行。甚至 Meta AI 表示，最低只需要 16 块英伟达 V100 GPU，就能训练并部署 OPT-175B 模型。

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

已经有网友迫不及待地想要一试了：

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

当然，Meta AI 也不避讳谈及 OPT-175B 大模型面临的一些问题，例如更容易生成“毒性语言”（例如使用有攻击性的词汇、语言歧视等）：

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

研究人员表示，希望能在开放后，有更多人参与进来研究，并真正解决这些问题。

手把手教你复刻 GPT-3

上面提到，这一次的 OPT 模型系列，300 亿参数及以下的版本都是可以直接下载，660 亿版还在路上。只有完整的 1750 亿版需要额外填写一张申请表，包括工作单位、用途、相关发表工作等问题。

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

训练和部署的代码工具包 metaseq 发布在 GitHub，并配有使用教程和文档。作为著名的 fairseq 工具包的一个分支，metaseq 专注于 1750 亿规模大模型，删除了训练和使用大模型不需要的部分。

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

还有不少开发者特别看重一个与模型和代码同时发布的“隐藏宝藏”—— 开发日志。里面详细记录了 Meta 团队在开发大模型过程中遇到的问题、解决的办法和决策的依据。

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

为自 Pytorch 诞生之前就存在的一系列机器学习研究中的痛点和困惑提供了大厂解法的一手资料。

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

如此的开放力度可以说是史无前例了，自然收到了不少赞美。比如同样在做开源大模型项目的 HuggingFace 首席科学家 Thomas Wolf。

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

不过针对 1750 亿参数版需要申请一事，还是有人表示怀疑。

我不是学者或从业者，他们会接受我的申请吗？

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

也有开发者建议 Meta 像 OpenAI 一样提供一些 Demo，如果大家看到效果会更愿意参与研究改进，不然的话光是搭建开发环境就挺劝退的。

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

斯坦福大学基础模型研究中心主任、副教授 Percy Liang 对此发表了观点，将大模型的开放程度总结成 4 个层次，更高层次的开放能让研究者专注于更深的问题。

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

第一层论文开放，证明一些设想的可行性，并提供构建思路。

第二层 API 开放，允许研究人员探索和评估现有模型的能力（如推理能力）和限制（如偏见）

第三层模型权重开放和训练数据开放。允许研究人员逐步改进现有模型，开发更深入的可解释性技术和更有效的微调方法，让研究人员更好地理解训练数据在模型行为中的作用。

第四层计算能力开放，允许研究人员尝试新的体系结构、训练目标和过程、进行数据融合，并在不同的领域开发全新的模型。

Percy Liang 认为更高层次的开放同时也会带来更多风险。也许是时候制定相关的社区规范了？

One More Thing

Meta 这次论文的的共同一作有三人，其中 Susan Zhang 加入 Meta 之前正是来自 OpenAI。

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

不过在 OpenAI 期间她并没有负责 GPT-3 的开发，而是参与了玩 Dota 的 OpenAI Five 强化学习项目，以及多模态大模型的研究。

项目地址：

https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

论文地址：

https://arxiv.org/abs/2205.01068

参考链接：

[1]https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

[2]https://www.technologyreview.com/2022/05/03/1051691/meta-ai-large-language-model-gpt3-ethics-huggingface-transparency/

[3]https://twitter.com/MetaAI/status/1521489996145958914

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/616/551.htm]

本文标签
模型 openai meta

上一个文章：小康股份：赛力斯 4 月销量 3439 辆，同比大涨 1248.63%

下一个文章：谷歌 YouTube Go 变“YouTube Stop”，今年 8 月份关闭

点了个评

Echo

最近回复

千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

用 16 块 V100 就能跑起来

手把手教你复刻 GPT-3

One More Thing

点击排行

没有找到这位爷的热门文章哦~

最新文章

《地狱之刃 2》领衔，5 月下旬微软 Xbox Game Pass 新增游戏阵容公布

赠B站+ 喜马拉雅会员：百度网盘 SVIP 年卡 180 元 618 大促开启

够年卡赠季卡 + 季卡：迅雷超级会员 11 元 / 月五折购

新款起亚 EV6 发布，续航更长、设计更时尚

惠普战 X 14 / 16 酷睿版笔记本 5 月 20 日开售：酷睿 Ultra 处理器，7499 元起

阿里巴巴：一直在为在香港主要上市做准备，预计 8 月底完成转换

消息称荣耀 200 手机全系标配 5200mAh 青海湖电池

国民级游戏 IP 将被卖出，大宇有意出售《仙剑奇侠传》海外地区与《轩辕剑》全球版权

惠普新款战 99 笔记本 5 月 20 日开售：酷睿 Ultra / 锐龙 8040，4999 元起

因诱导年轻玩家消费，荷兰监管机构对 Epic Games 罚款 112.5 万欧元