标签文章:#gpt4#

  • 大模型一对一战斗 75 万轮,GPT-4 夺冠,Llama 3 位列第五

    大模型一对一战斗 75 万轮,GPT-4 夺冠,Llama 3 位列第五 大模型一对一战斗 75 万轮,GPT-4 夺冠,Llama 3 位列第五 大模型一对一战斗 75 万轮,GPT-4 夺冠,Llama 3 位列第五

    关于Llama3,又有测试结果新鲜出炉——大模型评测社区LMSYS发布了一份大模型排行榜单,Llama3位列第五,英文单项与GPT-4并列第一。不同于其他Benchmark,这份榜单的依据是模型一对一battle,由全网测评者自行命题并打分。最终,Llama3取得了榜单中的第五名,排在前面的是GPT-4的三个不同版本,以及Claude3超大杯Opus。而在英文单项榜单中,Llama3反超了Clau

    Echo Echo 2024.04.23 13:30 30浏览 0回复

    阅读更多
  • GPT-4 整治学术不端:人大 / 浙大团队实测 7000 篇论文,撤稿预测与人类 95% 一致

    GPT-4 整治学术不端:人大 / 浙大团队实测 7000 篇论文,撤稿预测与人类 95% 一致 GPT-4 整治学术不端:人大 / 浙大团队实测 7000 篇论文,撤稿预测与人类 95% 一致 GPT-4 整治学术不端:人大 / 浙大团队实测 7000 篇论文,撤稿预测与人类 95% 一致

    【新智元导读】人大与浙大学者发现,GPT-4对于论文给出的撤稿预测结果,竟然和人类审稿人有将近95%的相似性。看来大模型虽然有可能引发学术不端,但也有办法维护科研诚信啊。学术论文的撤稿事件时有发生,这不仅损害了科研诚信,也可能对公众信任和科学进展产生负面影响。传统上,学术界依赖同行评审和出版后的读者反馈来识别和纠正问题论文,但这些方法可能无法及时发现所有问题,尤其是在当前科研论文出版数量急剧增加的

    Echo Echo 2024.04.15 12:47 42浏览 0回复

    阅读更多
  • 融合视觉能力,OpenAI 向开发人员提供 GPT-4 Turbo with Vision

    融合视觉能力,OpenAI 向开发人员提供 GPT-4 Turbo with Vision

    IT之家4月10日消息,OpenAI宣布,具有视觉能力的最新GPT-4Turbo模型GPT-4TurbowithVision现已通过OpenAIAPI向开发人员普遍提供。据IT之家了解,该模型延续了GPT-4Turbo系列128,000个token的窗口大小以及截止至2023年12月的知识库,最大的革新之处在于其新增的视觉理解能力。在过去,开发者需要调用不同的模型来处理文本和图像信息,而GPT-4

    Echo Echo 2024.04.10 06:56 52浏览 0回复

    阅读更多
  • OpenAI 创始大神手搓千行 C 代码训练 GPT,附 PyTorch 迁移教程

    OpenAI 创始大神手搓千行 C 代码训练 GPT,附 PyTorch 迁移教程 OpenAI 创始大神手搓千行 C 代码训练 GPT,附 PyTorch 迁移教程 OpenAI 创始大神手搓千行 C 代码训练 GPT,附 PyTorch 迁移教程

    大神卡帕西(AndrejKarpathy)刚“复工”,立马带来神作:纯C语言训练GPT,1000行代码搞定!,不用现成的深度学习框架,纯手搓。发布仅几个小时,已经揽星2.3k。它可以立即编译和运行,和PyTorch完全兼容。卡帕西使用的示例是GPT-2,但Llama2和Gemma等也适用。项目发布后,他还给出了从PyTorch迁移到C的教程。网友们直呼:他甚至都不用C++……而且就连怎么让大模型如

    Echo Echo 2024.04.09 22:21 51浏览 0回复

    阅读更多
  • GPT-4 推理能力为 0?开发者悬赏 1 万美金被打脸,神秘提示正确率直冲 100%

    GPT-4 推理能力为 0?开发者悬赏 1 万美金被打脸,神秘提示正确率直冲 100% GPT-4 推理能力为 0?开发者悬赏 1 万美金被打脸,神秘提示正确率直冲 100% GPT-4 推理能力为 0?开发者悬赏 1 万美金被打脸,神秘提示正确率直冲 100%

      新智元报道  编辑:Aeneas好困【新智元导读】小孩子都会的脑筋急转弯推理题,GPT-4和Claude3做不出?国外一位开发者小哥坚称这一观点,认为GPT模型在训练集外毫无推理能力,无法实现AGI,甚至悬赏1万美元,发起比赛。然而,他当天就被光速打脸了!网友用高能的prompt,让GPT-4和Claude3几乎达到百分百的正确率。ChatGPT,再一次

    Echo Echo 2024.04.08 13:43 71浏览 0回复

    阅读更多
  • 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

    IT之家4月7日消息,本周早些时候,《华尔街日报》报道称AI公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了AI公司处理此问题的一些方法,其中涉及到属于AI版权法模糊灰色区域的内容。报道称,OpenAI迫切需要训练数据,并开发了Whisper音频转录模型来克服困难,转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。报道提到,OpenAI 

    Echo Echo 2024.04.07 07:03 59浏览 0回复

    阅读更多
  • 和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

    和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异 和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异 和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

    IT之家3月28日消息,根据LMSYSOrg公布的最新基准测试报告,Claude-3 得分以微弱优势超越GPT-4,成为该平台“最佳”大语言模型。IT之家首先介绍下LMSYSOrg,该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出ChatbotArena,这是一个针对大型语言模型(LLM)的基准平台,以众包方式匿名、随机对抗测评大模型产品,

    Echo Echo 2024.03.28 13:53 65浏览 0回复

    阅读更多
  • OpenAI 的 GPT 商店审核失控:被指充斥侵权和垃圾内容

    OpenAI 的 GPT 商店审核失控:被指充斥侵权和垃圾内容 OpenAI 的 GPT 商店审核失控:被指充斥侵权和垃圾内容 OpenAI 的 GPT 商店审核失控:被指充斥侵权和垃圾内容

    IT之家3月21日消息,旨在提供从编程辅助到健身建议等各种功能的GPT模型的OpenAIGPT商店正面临质量和合规性问题。据TechCrunch调查,该商店存在大量涉嫌侵犯版权的GPT模型,例如未经授权生成迪士尼和漫威角色内容的“钢铁侠”GPT或“米奇老鼠”GPT。IT之家注意到,尽管OpenAI采用了结合自动检测和人工审查的审核制度,但大量的GPT模型显然逃过了审核。另一个问题是学术诚信,一些G

    Echo Echo 2024.03.21 17:25 65浏览 0回复

    阅读更多
  • OpenAI 官方博客提前泄露 GPT-4.5 Turbo,有望今年夏天发布

    OpenAI 官方博客提前泄露 GPT-4.5 Turbo,有望今年夏天发布 OpenAI 官方博客提前泄露 GPT-4.5 Turbo,有望今年夏天发布

    IT之家3月13日消息,OpenAI近期可能意外泄露了旗下即将发布的GPT-4.5Turbo大型语言模型信息。网友发现,OpenAI博客上疑似上线了一篇有关GPT-4.5Turbo的文章,但该页面目前已被撤回,搜索引擎也无法再检索到相关信息。泄露的信息显示,GPT-4.5Turbo将在速度、准确性和可扩展性方面全面超越其前代GPT-4Turbo。更关键的是,泄露的描述中提到了该模型的“知识截止日期

    Echo Echo 2024.03.13 21:06 98浏览 0回复

    阅读更多
  • 万物皆可《毁灭战士》,专家利用 GPT-4V 模型运行该游戏

    万物皆可《毁灭战士》,专家利用 GPT-4V 模型运行该游戏 万物皆可《毁灭战士》,专家利用 GPT-4V 模型运行该游戏

    IT之家3月13日消息,英国约克大学研究员AdriandeWynter近日发表研究论文《WillGPT-4RunDOOM?》,探讨了如何让GPT-4V模型来玩《毁灭战士》游戏。deWynter为此设计了一个系统,使用GPT-4V(GPT4的多模态衍生版本,可以接收图像作为输入)捕捉游戏引擎的画面截图,并返回游戏状态的结构化描述。他设计了一个Agent模型,根据视觉输入信息,并对比此前历史记录作出决

    Echo Echo 2024.03.13 10:22 96浏览 0回复

    阅读更多
  • Claude 3 成功破解未公开算法?智商测试 101 分碾压 GPT-4

    Claude 3 成功破解未公开算法?智商测试 101 分碾压 GPT-4 Claude 3 成功破解未公开算法?智商测试 101 分碾压 GPT-4 Claude 3 成功破解未公开算法?智商测试 101 分碾压 GPT-4

      新智元报道  编辑:编辑部【新智元导读】网友测试Claude之后惊呼:实测比跑分厉害多了!智商测试中碾压GPT-4,得分高达101。而且能发现量子物理学家还未发表的量子算法。Claude3上线之后,网友开始疯狂测试,实测效果确实惊人。不少网友体感Claude3超大杯确实强,实测已经达到了博士水平:这实在太疯狂了!Claude是唯一理解我的量子物理学博士论

    Echo Echo 2024.03.06 23:19 89浏览 0回复

    阅读更多
  • 新王 Claude 3 实测!各项能力给跪,打麻将也会,确实比 GPT-4 好用

    新王 Claude 3 实测!各项能力给跪,打麻将也会,确实比 GPT-4 好用 新王 Claude 3 实测!各项能力给跪,打麻将也会,确实比 GPT-4 好用 新王 Claude 3 实测!各项能力给跪,打麻将也会,确实比 GPT-4 好用

    OpenAI不可战胜的神话,已经被打破了。随着Claude3(支持中文)一夜登陆,榜单性能跑分全面超越GPT-4,成为首个全面超越GPT-4的产品,也坐上了全球最强大模型新王座。而且多版本发布后,“中杯”(Sonnet)直接免费体验,“大杯”(Opus)充个会员也能即刻享受。各路测评纷至沓来。所以,Claude3的“武力值”究竟如何爆满?究竟比GPT-4如何?(听说都能学会至今没有模型能搞定的打麻

    Echo Echo 2024.03.05 14:25 100浏览 0回复

    阅读更多
  • 打脸奥特曼,GPT-4 今年比去年还懒!网友在线实测出炉

    打脸奥特曼,GPT-4 今年比去年还懒!网友在线实测出炉 打脸奥特曼,GPT-4 今年比去年还懒!网友在线实测出炉 打脸奥特曼,GPT-4 今年比去年还懒!网友在线实测出炉

    GPT-4变懒的问题,又有新进展。就在今天凌晨,奥特曼发推称,GPT-4这个毛病在新的一年应该好多了!关于GPT-4变懒,网友的吐槽已是不计其数,其中最多的就是与代码相关的任务:完成度不高不说,还会被分割成一个一个小块,使用时需要逐一复制。对于最新版本,一位博主体验之后表示,自己尝试给一年级的孩子做了个学习用的小游戏,效果还不错。但也有人不认同,比如这位网友就发现,ChatGPT回复的长度虽然增加

    Echo Echo 2024.02.05 13:36 100浏览 0回复

    阅读更多
  • 谷歌 Gemini 大逆转?斯坦福 Meta 华人证明其推理性能强于 GPT-3.5

    谷歌 Gemini 大逆转?斯坦福 Meta 华人证明其推理性能强于 GPT-3.5 谷歌 Gemini 大逆转?斯坦福 Meta 华人证明其推理性能强于 GPT-3.5 谷歌 Gemini 大逆转?斯坦福 Meta 华人证明其推理性能强于 GPT-3.5

      新智元报道  编辑:编辑部【新智元导读】谷歌放出的Gemini,在对标GPT的道路上似乎一直处于劣势,Gemini真的比GPT-4弱吗?最近,斯坦福和Meta的学者发文为Gemini正名。Gemini的推理能力,真的比GPT-4弱吗?此前,谷歌憋出的重磅复仇神器GeminiPro,被发现在常识推理任务中落后于OpenAI的GPT模型。之后又有CMU发布的

    Echo Echo 2024.01.02 19:14 101浏览 0回复

    阅读更多
  • GPT-4 抽象推理 PK 人类差距巨大!多模态远不如纯文本,AGI 火花难以独立燃烧

    GPT-4 抽象推理 PK 人类差距巨大!多模态远不如纯文本,AGI 火花难以独立燃烧 GPT-4 抽象推理 PK 人类差距巨大!多模态远不如纯文本,AGI 火花难以独立燃烧 GPT-4 抽象推理 PK 人类差距巨大!多模态远不如纯文本,AGI 火花难以独立燃烧

      新智元报道  编辑:Mindy润【新智元导读】圣达菲研究所的科研人员用非常严谨的定量研究方法,测试出了GPT-4在推理和抽象方面与人类水平还有较大差距。要想从GPT-4的水平发展出AGI,还任重道远!GPT-4,可能是目前最强大的通用语言大模型。一经发布,除了感叹它在各种任务上的出色表现之外,大家也纷纷提出疑问:GPT-4是AGI吗?他真的预示了AI取代

    Echo Echo 2024.01.01 23:20 124浏览 0回复

    阅读更多
  • GPT-4 API 曝出重大漏洞:15 个样本微调,一句 prompt 秒生恶意代码供出私人信息

    GPT-4 API 曝出重大漏洞:15 个样本微调,一句 prompt 秒生恶意代码供出私人信息 GPT-4 API 曝出重大漏洞:15 个样本微调,一句 prompt 秒生恶意代码供出私人信息 GPT-4 API 曝出重大漏洞:15 个样本微调,一句 prompt 秒生恶意代码供出私人信息

    即便是GPT-4API「灰盒」也逃不过安全漏洞。FARAI实验室的团队从微调、函数调用、搜索增强三个方向入手,成功让GPT-4越狱。GPT-4API竟被曝出重大安全漏洞!OpenAI首届开发者大会上全面更新了GPT-4模型,包括微调API,新增函数调用API,以及搜索增强API。如今,来自美国加州实验室FARAI的团队从这三大方向,对GPT-4API开启「红队」攻击测试。没想到,GPT-4竟能成功

    Echo Echo 2023.12.27 23:55 115浏览 0回复

    阅读更多
  • GPT-4 搞科研登 Nature!布洛芬配方轻松拿捏,诺奖得主提出的复杂反应也能完成

    GPT-4 搞科研登 Nature!布洛芬配方轻松拿捏,诺奖得主提出的复杂反应也能完成 GPT-4 搞科研登 Nature!布洛芬配方轻松拿捏,诺奖得主提出的复杂反应也能完成 GPT-4 搞科研登 Nature!布洛芬配方轻松拿捏,诺奖得主提出的复杂反应也能完成

    AI大模型“化学家”登Nature!能够自制阿司匹林、对乙酰氨基酚、布洛芬的那种。就连复杂的钯催化交叉偶联反应,也能完成!要知道,2010年诺贝尔化学奖获得者就因为对该反应的研究才获奖的,这类反应可以高效地构建碳-碳键,生成很多以往很难甚至无法合成的物质。而现在名为Coscientist,基于GPT-4等大模型的AI系统,可快速准确地自主完成检索信息、规划及设计实验、编写程序、远程操控自动化系统做

    Echo Echo 2023.12.21 13:04 99浏览 0回复

    阅读更多
  • 谷歌 Gemini Pro 实测不如 GPT-3.5,CMU 深入对比研究:保证公平透明可重复

    谷歌 Gemini Pro 实测不如 GPT-3.5,CMU 深入对比研究:保证公平透明可重复 谷歌 Gemini Pro 实测不如 GPT-3.5,CMU 深入对比研究:保证公平透明可重复 谷歌 Gemini Pro 实测不如 GPT-3.5,CMU 深入对比研究:保证公平透明可重复

    谷歌Gemini实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果。不会像谷歌官方发布会那样,用CoT@32对比5-shot了。一句话结果:GeminiPro版本接近但略逊于GPT-3.5Turbo,GPT-4还是遥遥领先。在深入分析中还发现Gemini一些奇怪特性,比如选择题喜欢选D……不少研究者表示,太卷了,

    Echo Echo 2023.12.21 00:55 137浏览 0回复

    阅读更多
  • GPT-4 化身邪恶化学家!中国科大、微软研究院发布首个“科学风险”基准和 SciGuard 大模型

    GPT-4 化身邪恶化学家!中国科大、微软研究院发布首个“科学风险”基准和 SciGuard 大模型 GPT-4 化身邪恶化学家!中国科大、微软研究院发布首个“科学风险”基准和 SciGuard 大模型 GPT-4 化身邪恶化学家!中国科大、微软研究院发布首个“科学风险”基准和 SciGuard 大模型

    来自中科大等机构的联合团队提出了一种全新的方法——SciGuard,可以保护AIforScience模型,防止生物、化学、药物等领域模型不会被不当使用。与此同时,团队还建立了首个专注于化学科学领域安全的基准测试——SciMT-Safety。「我们的实验失控了!这是我们自己创造的末日!」——《后天》(TheDayAfterTomorrow)在科幻电影中,疯狂科学家通常是造成末日灾难的主角,而AI技术

    Echo Echo 2023.12.19 00:07 127浏览 0回复

    阅读更多
  • Mistral 携微软引爆“小语言模型”风潮:代码能力完胜 GPT-4,成本仅有 1/3

    Mistral 携微软引爆“小语言模型”风潮:代码能力完胜 GPT-4,成本仅有 1/3 Mistral 携微软引爆“小语言模型”风潮:代码能力完胜 GPT-4,成本仅有 1/3 Mistral 携微软引爆“小语言模型”风潮:代码能力完胜 GPT-4,成本仅有 1/3

    小模型的风潮,最近愈来愈盛,Mistral和微软分别有所动作。而网友实测发现,Mistral-medium的代码能力竟然完胜了GPT-4,而所花成本还不到三分之一。最近,「小语言模型」忽然成为热点。本周一,刚刚完成4.15亿美元融资的法国AI初创公司Mistral,发布了Mixtral8x7B模型。这个开源模型尽管尺寸不大,小到足以在一台内存100GB以上的电脑上运行,然而在某些基准测试中却能和G

    Echo Echo 2023.12.18 00:12 127浏览 0回复

    阅读更多
1  2  3  下一页