#gpt4#_标签文章_Nemo社区_LinkNemo_关于分享和探索的好地方

标签文章：#gpt4#

大模型一对一战斗 75 万轮，GPT-4 夺冠，Llama 3 位列第五

关于Llama3，又有测试结果新鲜出炉——大模型评测社区LMSYS发布了一份大模型排行榜单，Llama3位列第五，英文单项与GPT-4并列第一。不同于其他Benchmark，这份榜单的依据是模型一对一battle，由全网测评者自行命题并打分。最终，Llama3取得了榜单中的第五名，排在前面的是GPT-4的三个不同版本，以及Claude3超大杯Opus。而在英文单项榜单中，Llama3反超了Clau

Echo 2024.04.23 13:30 30浏览 0回复
阅读更多
GPT-4 整治学术不端：人大 / 浙大团队实测 7000 篇论文，撤稿预测与人类 95% 一致

【新智元导读】人大与浙大学者发现，GPT-4对于论文给出的撤稿预测结果，竟然和人类审稿人有将近95%的相似性。看来大模型虽然有可能引发学术不端，但也有办法维护科研诚信啊。学术论文的撤稿事件时有发生，这不仅损害了科研诚信，也可能对公众信任和科学进展产生负面影响。传统上，学术界依赖同行评审和出版后的读者反馈来识别和纠正问题论文，但这些方法可能无法及时发现所有问题，尤其是在当前科研论文出版数量急剧增加的

Echo 2024.04.15 12:47 42浏览 0回复
阅读更多
融合视觉能力，OpenAI 向开发人员提供 GPT-4 Turbo with Vision

IT之家4月10日消息，OpenAI宣布，具有视觉能力的最新GPT-4Turbo模型GPT-4TurbowithVision现已通过OpenAIAPI向开发人员普遍提供。据IT之家了解，该模型延续了GPT-4Turbo系列128,000个token的窗口大小以及截止至2023年12月的知识库，最大的革新之处在于其新增的视觉理解能力。在过去，开发者需要调用不同的模型来处理文本和图像信息，而GPT-4

Echo 2024.04.10 06:56 52浏览 0回复
阅读更多
OpenAI 创始大神手搓千行 C 代码训练 GPT，附 PyTorch 迁移教程

大神卡帕西（AndrejKarpathy）刚“复工”，立马带来神作：纯C语言训练GPT，1000行代码搞定！，不用现成的深度学习框架，纯手搓。发布仅几个小时，已经揽星2.3k。它可以立即编译和运行，和PyTorch完全兼容。卡帕西使用的示例是GPT-2，但Llama2和Gemma等也适用。项目发布后，他还给出了从PyTorch迁移到C的教程。网友们直呼：他甚至都不用C++……而且就连怎么让大模型如

Echo 2024.04.09 22:21 51浏览 0回复
阅读更多
GPT-4 推理能力为 0？开发者悬赏 1 万美金被打脸，神秘提示正确率直冲 100%

新智元报道编辑：Aeneas好困【新智元导读】小孩子都会的脑筋急转弯推理题，GPT-4和Claude3做不出？国外一位开发者小哥坚称这一观点，认为GPT模型在训练集外毫无推理能力，无法实现AGI，甚至悬赏1万美元，发起比赛。然而，他当天就被光速打脸了！网友用高能的prompt，让GPT-4和Claude3几乎达到百分百的正确率。ChatGPT，再一次

Echo 2024.04.08 13:43 71浏览 0回复
阅读更多
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家4月7日消息，本周早些时候，《华尔街日报》报道称AI公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了AI公司处理此问题的一些方法，其中涉及到属于AI版权法模糊灰色区域的内容。报道称，OpenAI迫切需要训练数据，并开发了Whisper音频转录模型来克服困难，转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。报道提到，OpenAI

Echo 2024.04.07 07:03 59浏览 0回复
阅读更多
和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

IT之家3月28日消息，根据LMSYSOrg公布的最新基准测试报告，Claude-3 得分以微弱优势超越GPT-4，成为该平台“最佳”大语言模型。IT之家首先介绍下LMSYSOrg，该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出ChatbotArena，这是一个针对大型语言模型（LLM）的基准平台，以众包方式匿名、随机对抗测评大模型产品，

Echo 2024.03.28 13:53 65浏览 0回复
阅读更多
OpenAI 的 GPT 商店审核失控：被指充斥侵权和垃圾内容

IT之家3月21日消息，旨在提供从编程辅助到健身建议等各种功能的GPT模型的OpenAIGPT商店正面临质量和合规性问题。据TechCrunch调查，该商店存在大量涉嫌侵犯版权的GPT模型，例如未经授权生成迪士尼和漫威角色内容的“钢铁侠”GPT或“米奇老鼠”GPT。IT之家注意到，尽管OpenAI采用了结合自动检测和人工审查的审核制度，但大量的GPT模型显然逃过了审核。另一个问题是学术诚信，一些G

Echo 2024.03.21 17:25 65浏览 0回复
阅读更多
OpenAI 官方博客提前泄露 GPT-4.5 Turbo，有望今年夏天发布

IT之家3月13日消息，OpenAI近期可能意外泄露了旗下即将发布的GPT-4.5Turbo大型语言模型信息。网友发现，OpenAI博客上疑似上线了一篇有关GPT-4.5Turbo的文章，但该页面目前已被撤回，搜索引擎也无法再检索到相关信息。泄露的信息显示，GPT-4.5Turbo将在速度、准确性和可扩展性方面全面超越其前代GPT-4Turbo。更关键的是，泄露的描述中提到了该模型的“知识截止日期

Echo 2024.03.13 21:06 98浏览 0回复
阅读更多
万物皆可《毁灭战士》，专家利用 GPT-4V 模型运行该游戏

IT之家3月13日消息，英国约克大学研究员AdriandeWynter近日发表研究论文《WillGPT-4RunDOOM?》，探讨了如何让GPT-4V模型来玩《毁灭战士》游戏。deWynter为此设计了一个系统，使用GPT-4V（GPT4的多模态衍生版本，可以接收图像作为输入）捕捉游戏引擎的画面截图，并返回游戏状态的结构化描述。他设计了一个Agent模型，根据视觉输入信息，并对比此前历史记录作出决

Echo 2024.03.13 10:22 96浏览 0回复
阅读更多
Claude 3 成功破解未公开算法？智商测试 101 分碾压 GPT-4

新智元报道编辑：编辑部【新智元导读】网友测试Claude之后惊呼：实测比跑分厉害多了！智商测试中碾压GPT-4，得分高达101。而且能发现量子物理学家还未发表的量子算法。Claude3上线之后，网友开始疯狂测试，实测效果确实惊人。不少网友体感Claude3超大杯确实强，实测已经达到了博士水平：这实在太疯狂了！Claude是唯一理解我的量子物理学博士论

Echo 2024.03.06 23:19 89浏览 0回复
阅读更多
新王 Claude 3 实测！各项能力给跪，打麻将也会，确实比 GPT-4 好用

OpenAI不可战胜的神话，已经被打破了。随着Claude3（支持中文）一夜登陆，榜单性能跑分全面超越GPT-4，成为首个全面超越GPT-4的产品，也坐上了全球最强大模型新王座。而且多版本发布后，“中杯”（Sonnet）直接免费体验，“大杯”（Opus）充个会员也能即刻享受。各路测评纷至沓来。所以，Claude3的“武力值”究竟如何爆满？究竟比GPT-4如何？（听说都能学会至今没有模型能搞定的打麻

Echo 2024.03.05 14:25 100浏览 0回复
阅读更多
打脸奥特曼，GPT-4 今年比去年还懒！网友在线实测出炉

GPT-4变懒的问题，又有新进展。就在今天凌晨，奥特曼发推称，GPT-4这个毛病在新的一年应该好多了！关于GPT-4变懒，网友的吐槽已是不计其数，其中最多的就是与代码相关的任务：完成度不高不说，还会被分割成一个一个小块，使用时需要逐一复制。对于最新版本，一位博主体验之后表示，自己尝试给一年级的孩子做了个学习用的小游戏，效果还不错。但也有人不认同，比如这位网友就发现，ChatGPT回复的长度虽然增加

Echo 2024.02.05 13:36 100浏览 0回复
阅读更多
谷歌 Gemini 大逆转？斯坦福 Meta 华人证明其推理性能强于 GPT-3.5

新智元报道编辑：编辑部【新智元导读】谷歌放出的Gemini，在对标GPT的道路上似乎一直处于劣势，Gemini真的比GPT-4弱吗？最近，斯坦福和Meta的学者发文为Gemini正名。Gemini的推理能力，真的比GPT-4弱吗？此前，谷歌憋出的重磅复仇神器GeminiPro，被发现在常识推理任务中落后于OpenAI的GPT模型。之后又有CMU发布的

Echo 2024.01.02 19:14 101浏览 0回复
阅读更多
GPT-4 抽象推理 PK 人类差距巨大！多模态远不如纯文本，AGI 火花难以独立燃烧

新智元报道编辑：Mindy润【新智元导读】圣达菲研究所的科研人员用非常严谨的定量研究方法，测试出了GPT-4在推理和抽象方面与人类水平还有较大差距。要想从GPT-4的水平发展出AGI，还任重道远！GPT-4，可能是目前最强大的通用语言大模型。一经发布，除了感叹它在各种任务上的出色表现之外，大家也纷纷提出疑问：GPT-4是AGI吗？他真的预示了AI取代

Echo 2024.01.01 23:20 124浏览 0回复
阅读更多
GPT-4 API 曝出重大漏洞：15 个样本微调，一句 prompt 秒生恶意代码供出私人信息

即便是GPT-4API「灰盒」也逃不过安全漏洞。FARAI实验室的团队从微调、函数调用、搜索增强三个方向入手，成功让GPT-4越狱。GPT-4API竟被曝出重大安全漏洞！OpenAI首届开发者大会上全面更新了GPT-4模型，包括微调API，新增函数调用API，以及搜索增强API。如今，来自美国加州实验室FARAI的团队从这三大方向，对GPT-4API开启「红队」攻击测试。没想到，GPT-4竟能成功

Echo 2023.12.27 23:55 115浏览 0回复
阅读更多
GPT-4 搞科研登 Nature！布洛芬配方轻松拿捏，诺奖得主提出的复杂反应也能完成

AI大模型“化学家”登Nature！能够自制阿司匹林、对乙酰氨基酚、布洛芬的那种。就连复杂的钯催化交叉偶联反应，也能完成！要知道，2010年诺贝尔化学奖获得者就因为对该反应的研究才获奖的，这类反应可以高效地构建碳-碳键，生成很多以往很难甚至无法合成的物质。而现在名为Coscientist，基于GPT-4等大模型的AI系统，可快速准确地自主完成检索信息、规划及设计实验、编写程序、远程操控自动化系统做

Echo 2023.12.21 13:04 99浏览 0回复
阅读更多
谷歌 Gemini Pro 实测不如 GPT-3.5，CMU 深入对比研究：保证公平透明可重复

谷歌Gemini实力到底如何？卡耐基梅隆大学来了场专业客观第三方比较。为保证公平，所有模型使用相同的提示和生成参数，并且提供可重复的代码和完全透明的结果。不会像谷歌官方发布会那样，用CoT@32对比5-shot了。一句话结果：GeminiPro版本接近但略逊于GPT-3.5Turbo，GPT-4还是遥遥领先。在深入分析中还发现Gemini一些奇怪特性，比如选择题喜欢选D……不少研究者表示，太卷了，

Echo 2023.12.21 00:55 137浏览 0回复
阅读更多
GPT-4 化身邪恶化学家！中国科大、微软研究院发布首个“科学风险”基准和 SciGuard 大模型

来自中科大等机构的联合团队提出了一种全新的方法——SciGuard，可以保护AIforScience模型，防止生物、化学、药物等领域模型不会被不当使用。与此同时，团队还建立了首个专注于化学科学领域安全的基准测试——SciMT-Safety。「我们的实验失控了！这是我们自己创造的末日！」——《后天》（TheDayAfterTomorrow）在科幻电影中，疯狂科学家通常是造成末日灾难的主角，而AI技术

Echo 2023.12.19 00:07 127浏览 0回复
阅读更多
Mistral 携微软引爆“小语言模型”风潮：代码能力完胜 GPT-4，成本仅有 1/3

小模型的风潮，最近愈来愈盛，Mistral和微软分别有所动作。而网友实测发现，Mistral-medium的代码能力竟然完胜了GPT-4，而所花成本还不到三分之一。最近，「小语言模型」忽然成为热点。本周一，刚刚完成4.15亿美元融资的法国AI初创公司Mistral，发布了Mixtral8x7B模型。这个开源模型尽管尺寸不大，小到足以在一台内存100GB以上的电脑上运行，然而在某些基准测试中却能和G

Echo 2023.12.18 00:12 127浏览 0回复
阅读更多

1 2 3 下一页