Echo

Echo 关注TA

大家好,我是Echo!

Echo

Echo

关注TA

大家好,我是Echo!

  •  普罗旺斯
  • 自由职业
  • 写了306,220,759字

该文章投稿至Nemo社区   资讯  板块 复制链接


GPT-5 来了?OpenAI 被曝加急训练多模态大模型 Gobi,一举狙杀谷歌 Gimini!

发布于 2023/09/19 13:12 314浏览 0回复 3,951

【新智元导读】多模态大模型的战场上,已有人闻到风声。据外媒爆料,OpenAI 的全新多模态模型 Gobi 似乎已在筹备中。谷歌和 OpenAI 的这场对决,似乎已是箭在弦上了。

随着今年秋天的临近,谷歌和 OpenAI 的多模态模型之战,也进入到白热化阶段。就在上周,谷歌已经对一些外部公司开放了多模态大模型 Gemini 的功能。

而 OpenAI,当然不会坐以待毙。他们正在争分夺秒地把多模态功能整合进 GPT-4 里,争取推出功能与 Gemini 类似的多模态大模型,一举击杀谷歌。

传说中的多模态功能,在今年 3 月 OpenAI 那场震惊全世界的 GPT-4 发布会上,已经被展示过 ——

在纸上画个草图,拍个照发给 GPT-4,说一声「给我按照这种布局做个网站」,它立马就写出了网页代码

▲ 老板 Greg Brockman 亲自上线演示

不过随后,多模态仿佛昙花一现,再也没人见过产品化的实体功能。

所以,谷歌和 OpenAI 的多模态大战,终于要来了吗?

对战谷歌,OpenAI 抢发多模态大模型

面对传闻中谷歌要击杀自己的这款大杀器,OpenAI 当然不会无动于衷。

据外媒 The Information 爆料,一款名为 Gobi 的全新多模态大模型,已经在紧锣密鼓地筹备了。OpenAI 计划,在 Gemini 发布之前就推出多模态 LLM,彻底击败谷歌。

▲ OpenAI 的 Greg Brockman vs 谷歌的 Demis Hassabis

其实,在 3 月份推出 GPT-4 多模态功能的预览后,OpenAI 已经向一家名为 Be My Eyes 的公司推出了这项功能,但并没有向其他公司提供。从名字就可以看出来,这家公司在研发让盲人或视力不佳人群看得更清楚的技术。

最近,OpenAI 打算更广泛地推出名为 GPT-Vision 的功能。

OpenAI 为什么花了这么长时间?最主要的原因,是他们担心新的视觉功能会被不法分子利用,比如通过自动破解验证码来冒充人类,或者通过面部识别来追踪人类。

不过,对于这些法律上的安全风险,OpenAI 的工程师们似乎已经解决了。同样,一位谷歌发言人也表示:谷歌已经采取了一些措施,防止 Gemini 被滥用

在 7 月做出的承诺中,谷歌保证会在所有产品中开发负责任的人工智能。

Gobi 能成为 GPT-5 吗?

在 GPT-Vision 之后,OpenAI 有可能会推出更强大的多模态大模型,代号为 Gobi。跟 GPT-4 不同,Gobi 从一开始就是按多模态模型构建的

所以,Gobi 就是传说中的 GPT-5 吗?

现在,我们还无法知晓。Gobi 训练到哪一步了,也没有确切消息。

在 9 月初,DeepMind 联合创始人、现 Inflection AI 的 CEO Mustafa Suleyman,在采访时曾放出一枚重磅炸弹 —— 据他猜测,OpenAI 正在秘密训练 GPT-5。

Suleyman 认为,Sam Altman 最近说过他们没有训练 GPT-5,可能没有说实话。(原话是:Come on. I don't know. I think it's better that we're all just straight about it.)

而在这边,根据试用过 Gemini 的人士,Gemini 产生的幻觉,会比现有的模型都更少。原因详见下文。

总之,谷歌和 OpenAI 的这场多模态模型大战,可以说是 AI 版的 iPhoneAndroid 对决。

一个是称霸 AI 领域多年的硅谷巨头,一个是风头无两的顶流 AI 初创公司,二者差距有多大,所有人都在屏息等待。

谷歌秘密测试 Gemini

另一边,谷歌也在开始邀请部分外部开发者加急测试,即将推出的下一代多模态大模型 Gemini

上周,The Information 独家报道称,Gemini 可能很快准备好进行测试发布,并会集成到像 Google Cloud Vertex AI 等服务中。

在今年的谷歌 I / O 开发者大会上,劈柴曾公开介绍 Gemini,是一个多模态模型、高效集成工具、API。

为了合力干大事,谷歌还将谷歌大脑,与 DeepMind 实验室进行了合并。

据称,至少有 20 多位高管参与了 Gemini 的研发,DeepMind 的创始人 Demis Hassabis 领导,谷歌创始人 Sergey Brin 参与研发。

还有谷歌 DeepMind 组成的数百名员工,其中包括前谷歌大脑主管 Jeff Dean 等等。

一位测试过的人士说,Gemini 至少在一个方面比 GPT-4 有优势:除了网络上的公开信息外,该模型还利用了大量谷歌消费产品(搜索、Youtube)的专有数据

因此,Gemini 在理解用户对特定查询的意图时应该特别准确,而且它产生的错误答案,即幻觉,似乎更少。

据此前 SemiAnalysis 分析师的爆料,谷歌的下一代大模型 Gemini,已经开始在新的 TPUv5 Pod 上进行训练,算力高达~1e26 FLOPS,比训练 GPT-4 的算力还要大 5 倍

另外,Gemini 的训练数据库包含 Youtube 上 936 亿分钟的视频字幕,总数据集规模约为 GPT-4 的两倍。

据称,谷歌下一代大模型也是由多种规模组成,可能使用了 MoE 架构,以及投机采样技术。通过小模型提前生成 token 并传递给大模型进行评估,以提高模型的总体推理速度。

谷歌 DeepMind 的负责人 Hassabis 在采访中曾表示,Gemini 预计花费数千万到数亿美元,与开发 GPT-4 的成本相当

Gemini 会整合 AlphaGo 中使用的技术,这将赋予系统全新的规划、解决问题的能力。

可以这么说,Gemini 把 AlphaGo 系统的一些优势,和大语言模型惊人的语言能力结合在一起了。并且,我们还有一些其他有趣的创新。

AlphaGo 背后的技术,就是强化学习,这是 DeepMind 首创的技术。

RL 代理随着时间的推移与环境交互,通过反复试验来学习策略,从而最大限度地提高长期累积奖励。

通过强化学习,AI 能够通过反复尝试和接受反馈来调整自己的表现,因而学会处理很棘手的问题,比如在围棋或电子游戏中选择如何采取下一步行动。

另外,AlphaGo 还使用了蒙特卡洛树搜索(MCTS)方法,来探索和记住棋盘上所有可能的动作。

与现有模型相比,Gemini 将大大提高软件开发人员的代码生成能力,谷歌希望用它来追赶微软的 GitHub Copilot 代码助手

谷歌内部还讨论了,使用 Gemini 来实现图表分析等功能,比如要求模型解释完成图表的含义,以及使用文本或语音指令来浏览网页浏览器或其他软件。

谷歌云开发者平台 Google Cloud Vertex AI 也将得到 Gemini 加持,大小版本都有,这样开发人员就可以付费购买小模型在个人设备上运行。

现在,谷歌已经在全力备战,就等着 Gemini 开启逆袭之路。

gpt-3.5-turbo-instruct 发布

7 月,OpenAI 曾公布 GPT-4 API 全面可用,并且在接下来几个月要推出新模型。

这不,就在今天,网友纷纷收到了 gpt-3.5-turbo-instruct 新模型发布的邮件,以代替旧模型 text-davinci-003。

据介绍,gpt-3.5-turbo-instruct 是一个 InstructGPT 风格的模型,其训练方式与 text-davinci-003 类似。

使用方法和以前的 Prompt-Completion 类似,根据提示词的指令补全。

就价格来说,gpt-3.5-turbo 4K 保持一致

有网友已经开始用上了最新模型,去玩 1800 Elo 左右的国际象棋。而他此前还发现 GPT 根本做不到这一点,但现在看来这只是 RLHF 聊天模型的问题,纯 Completion 模型就成功了。

在对弈中,gpt-3.5-turbo-instruct 轻松击败了 Stockfish 4 级(1700 分),在 5 级(2000 分)的比赛中仍不落下风。

它从不走非法棋步,使用巧妙的开局牺牲,以及令人难以置信的卒与王将死,允许对手毫无实际意义地晋级。

网友用的是如下 PGN 风格的提示来模拟大师级游戏。高亮显示有点错误。GPT 自己走棋,他手动输入了 Stockfish 的棋步。

顺便提一句,OpenAI 即将在 11 月召开的首届开发者大会,已经开始注册了,快上手申请吧。

参考资料:

  • https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm

  • https://devday.openai.com/

  • https://news.ycombinator.com/item?id=37558911#:~:text=Key%20Features%3A%20Gpt%2D3.5%2D,speed%20as%20our%20turbo%20models.

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。


本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/720/087.htm]

点赞(0)
点了个评