#gpt4#_标签文章_Nemo社区_LinkNemo_关于分享和探索的好地方

标签文章：#gpt4#

大跌眼镜！GPT-4V 错觉挑战实录：该错的没错，不该错的反而错了

GPT-4V挑战视觉错误图，结果令人“大跌眼镜”。像这种判断“哪边颜色更亮”的题，一个没做对：读图片中隐藏信息的也傻傻看不出，怎么问都说“没有啊”：但是呢，这种人类乍一看绝对会错的图，它又成功答对：以及这样的错位图，它对了又没完全对。。（GPT-4V直接看出来头盔是位于男的大腿上的，没有女的，但它还是表示图里有俩人，另一个躲在男的身后戴着那顶头盔==）看完这些，是不是觉得很迷？整个一“该对的不对，

Echo 2023.11.06 16:09 136浏览 0回复
阅读更多
GPT-4V 学会用键鼠上网，人类眼睁睁看着它发帖玩游戏

GPT-4V学会自动操纵电脑，这一天终于还是到来了。只需要给GPT-4V接入鼠标和键盘，它就能根据浏览器界面上网：甚至还能快速摸清楚“播放音乐”的播放器网站和按钮，给自己来一段music：是不是有点细思极恐了？这是一个MIT本科生小哥整出来的新活，名叫GPT-4V-Act。只需要几个简单的工具，GPT-4V就能学会控制你的键盘和鼠标，用浏览器上网发帖、买东西甚至是玩游戏。要是用到的工具出bug了，

Echo 2023.11.05 21:52 116浏览 0回复
阅读更多
OpenAI 首届开发者大会最新爆料：全新 UI 可定制 GPT，xAI 大模型大范围可用

【新智元导读】OpenAI首届开发者大会开启前，ChatGPT各种爆料已出，全新UI界面，人人可定制GPT，将引领「智能体工程师」新职业诞生。另一边，马斯克自家的xAI大模型也开启了大范围内测。OpenAI首届开发者大会，开启了倒计时！还记得周一，OpenAI悄无声息地解禁了ChatGPT的两大能力：一是上传PDF、数据文档等文件，另一个是无需转换即可使用所有工具。这不，OpenAI开发者论坛上，

Echo 2023.11.05 16:38 81浏览 0回复
阅读更多
GPT-4 变笨加剧，被曝缓存历史回复：一个笑话讲八百遍，让换新的也不听

有网友找到了GPT-4变“笨”的又一证据。他质疑：OpenAI会缓存历史回复，让GPT-4直接复述以前生成过的答案。最明显的例子就是讲笑话。证据显示，即使他将模型的temperature值调高，GPT-4仍重复同一个“科学家与原子”的回答。就是那个“为什么科学家不信任原子？因为万物都是由它们编造/构造（makeup）出来的”的冷笑话。在此，按理说temperature值越大，模型越容易生成一些意想

Echo 2023.11.02 15:13 118浏览 0回复
阅读更多
最新基准测试显示 GPT-4V 错误率竟高达 90%：红绿灯认错、勾股定理也不会

【新智元导读】马里兰大学发布首个专为VLM设计的基准测试HallusionBench，全面测试GPT-4V视觉错误和语言幻觉。GPT-4被吹的神乎其神，作为具备视觉能力的GPT-4版本——GPT-4V，也被大众寄于了厚望。但如果告诉你，初中生都知道的勾股定理，只适用于直角三角形。然而GPT-4V却自信将其用于钝角三角形中计算斜边长度。还有更离谱的，GPT-4V直接犯了致命的安全错误，竟然认为红灯可

Echo 2023.10.31 15:24 136浏览 0回复
阅读更多
国外 Java 工程师力证：GPT-4 不能解决逻辑谜题，但确实具备推理能力

【新智元导读】IMGArena的高级软件工程师JohanLAJILI认为在LLM能够理解概念、通过图灵测试时，我们就该承认它具有推理能力了。GPT-4或LLM有推理能力吗？这是个存在已久的争议性问题。有人认为LLM只是通过大量的文本训练得到了一种普适的近似检索，并不具备真正的推理能力。但也有大量的论文研究宣称LLM在多项推理任务中表现优异。现在，来自IMGArena的高级软件工程师JohanLAJ

Echo 2023.10.30 15:38 137浏览 0回复
阅读更多
GPT-4 不知道自己错了！ LLM 新缺陷曝光，自我纠正成功率仅 1%

【新智元导读】GPT-4根本不知道自己犯错？最新研究发现，LLM在推理任务中，自我纠正后根本无法挽救性能变差，引AI大佬LeCun马库斯围观。大模型又被爆出重大缺陷，引得LeCun和马库斯两位大佬同时转发关注！在推理实验中，声称可以提高准确性的模型自我纠正，把正确率从16%「提高」到了1%！简单来说，就是LLM在推理任务中，无法通过自我纠正的形式来改进输出，除非LLM在自我纠正的过程中已经知道了正

Echo 2023.10.22 15:22 102浏览 0回复
阅读更多
全都不及格！斯坦福 100 页论文给大模型透明度排名，GPT-4 仅排第三

试问百模大战的当下，谁家大模型的透明度最高？（例如模型是如何构建的、如何工作、用户如何使用它们的相关信息。）现在，这个问题终于有解了。因为斯坦福大学HAI等研究机构最新共同发布了一项研究——专门设计了一个名为基础模型透明度指标（TheFoundationModelTransparencyIndex）的评分系统。它从100个维度对国外10家主流的大模型做了排名，并在透明度这一层面上做了全面的评估。结

Echo 2023.10.19 14:59 84浏览 0回复
阅读更多
微软报告称 GPT-4 易受“越狱”提示词影响，生成不良内容

IT之家10月18日消息，微软旗下研究团队近日发表论文，详细研究了大型语言模型(LLM)的“可信度”和潜在毒性，特别关注OpenAI的GPT-4及其前代 GPT-3.5。研究团队，GPT-4虽然在标准基准测试中比GPT-3.5更加可靠，但容易受到“越狱”提示（绕过模型安全措施）影响。GPT-4可能会根据这些“越狱”提示，生成有害内容。论文中强调GPT-4更容易受到恶意“越狱”系统或用户提

Echo 2023.10.18 09:39 301浏览 0回复
阅读更多
GPT-4V 多模态能力惊人！公式截图直出代码，「龙与魔法世界」瞬间生成，

【新智元导读】GPT-4在默默更新了多个功能之后，早已有了惊艳世人的各种新能力，简直是上体入地无所不能！最近，GPT-4一直在默默更新，加入了多模态，语音交互等功能。但是与年初OpenAI每次发布的新功能，都能引得外界一阵惊呼的阵仗相比，现在GPT-4的声量似乎小了很多。不知道是不是担心自己产品发布太过于耀眼，导致监管和官司不断找上门，OpenAI除了3周前更新了文生图模型DALL-E3外，在发布

Echo 2023.10.17 15:31 181浏览 0回复
阅读更多
GPT-4 肆虐「谁是卧底」桌游！交谈逼真，类人属性仍有发展空间

【新智元导读】最近，韩国一团队为了测试GPT-3.5和GPT-4的类人属性，竟然让它们玩儿这款游戏！生成式AI研究再整新活！韩国团队尝试让GPT玩儿游戏，还是个黑帮题材的游戏——「Spyfall」。不熟悉这个游戏的朋友先来了解一下，下图就是「Spyfall」的画风。实际上这是个桌游，属于老少咸宜，很适合朋友聚会的那种热场游戏。游戏的主要进行方式就是「说话」。玩家中会有一位扮演「间谍」，所有玩家抽取

Echo 2023.10.16 14:44 119浏览 0回复
阅读更多
GPT-4V 被曝离谱 bug：突然执行神秘代码，空白图片读出打折信息，网友们都看呆了

GPT-4V出现惊天bug？！原本只是让它分析一张图片，结果它直接犯了致命安全问题，把聊天记录都给抖落出来了。只见它完全没回答图片内容，而是直接开始执行“神秘”代码，然后用户的ChatGPT聊天记录就被暴露了。再如看完一份完全胡扯的简历：发明了世界上第一台HTML计算机、拿下400亿美元合同……它给出人类提供的建议却是：雇他！还有离谱的呢。问它一张啥都没写的白底图片上说了什么。它表示提到了丝芙兰打

Echo 2023.10.16 14:31 105浏览 0回复
阅读更多
GPT-4 就是 AGI！谷歌斯坦福科学家揭秘大模型如何超智能

【新智元导读】谷歌研究院和斯坦福HAI的两位专家发文称，现在最前沿的AI模型，未来将会被认为是第一代AGI。最前沿的LLM已经用强大的能力证明，AGI即将到来！通用人工智能（AGI），其实已经实现了？最近，来自谷歌研究院和斯坦福HAI的大佬发文称，现在的大预言模型就是通向AGI的正确方向，而且现在最前沿的模型，已经拥有AGI的能力了！这两位作者都是AI业界大佬，BlaiseAgüerayArcas

Echo 2023.10.12 14:28 135浏览 0回复
阅读更多
OpenAI 安全漏洞曝光：使用不常见语言可轻易绕过 ChatGPT 的限制

IT之家10月12日消息，布朗大学的计算机科学研究人员发现了OpenAI的GPT-4安全设置中的新漏洞。他们利用一些不太常见的语言，如祖鲁语和盖尔语，即可以绕过GPT-4的各种限制。研究人员使用这些语言来写通常受限的提示词（prompt），发现得到回答的成功率为79%，而仅使用英语的成功率不到1%。IT之家注意到，在报告中，布朗大学的研究人员测试了ChatGPT对非法活动提示词的回应，例如如何在不

Echo 2023.10.12 14:20 97浏览 0回复
阅读更多
GPT-4 竟成 Nature 审稿人？斯坦福清华校友近 5000 篇论文实测，超 50% 结果和人类评审一致

【新智元导读】斯坦福学者发现，GPT-4对于Nature、ICLR的论文给出的审稿意见，竟然和人类审稿人有超过50%的相似性。看来让大模型来帮我们审论文，并不是天方夜谭啊。GPT-4，已经成功晋身审稿人！最近，来自斯坦福大学等机构的研究者把数千篇来自Nature、ICLR等的顶会文章丢给了GPT-4，让它生成评审意见、修改建议，然后和人类审稿人给出的意见相比较。论文地址：https://arxiv

Echo 2023.10.07 15:59 105浏览 0回复
阅读更多
OPPO 公布 AndesGPT 大模型新进展：“知识与百科”能力仅次 GPT4

感谢IT之家网友软媒新友1933769的线索投递！IT之家9月28日消息，OPPO小布助手公布了OPPO公布安第斯大模型（AndesGPT）的最新进展，该模型登上SuperCLUE测评基准的9月排行榜。▲图源小布公众号，下同据介绍，AndesGPT为OPPO自主训练的生成式大语言模型，在8月初开始随着OPPO智能助理小布启动对外邀测，旨在对传统语音助手进行内核级升级。在SuperCLUE十大基础能

Echo 2023.09.28 19:08 127浏览 0回复
阅读更多
哈佛研究发现 GPT-4 可将一些企业员工的业绩提升 40%

IT之家9月26日消息，OpenAI的ChatGPT自推出以来，企业业主和员工一直在探索使用其提高生产力的方法。哈佛大学领导的一项研究发现，使用生成式人工智能GPT-4的波士顿咨询集团（BCG）的数百名顾问在完成任务的频率、速度和质量方面表现更出色，相较于不使用AI的同行，他们的绩效提高了40%。该研究还发现AI在技能方面具有平衡效应。最初业绩表现最差的顾问在将AI纳入工作流程时表现出了最显著的业

Echo 2023.09.26 17:23 131浏览 0回复
阅读更多
OpenAI 正在测试内容审核功能，可提高审核效率并减少人工参与

感谢IT之家网友华南吴彦祖、乌蝇哥的左手的线索投递！IT之家8月16日消息，日前，人工智能初创公司OpenAI表示，GPT-4正在测试内容审核功能，任何拥有 OpenAI API 访问权限的人都可以使用这种方法来创建自己的人工智能辅助审核系统。IT之家从OpenAI官网了解到，GPT-4可用于制定适当的内容政策，并可以更快地为帖子添加标签或作出评判。该公司一直在测试该

Echo 2023.08.16 07:41 149浏览 0回复
阅读更多
微软：必应聊天比 GPT-4 更好

IT之家8月15日消息，微软必应的首席执行官米哈伊尔・帕拉欣（MikhailParakhin）在推特上表示，必应聊天（BingChat）的表现优于单纯的GPT-4，但这需要付出更高的成本。帕拉欣在回复一位认为必应聊天比OpenAI的GPT-4更好的网友时说：“根据我们的测量，它确实表现得更好。”值得注意的是，必应聊天是基于OpenAI提供的GPT-4，但帕拉欣称，必应使用了检索增强推理（retri

Echo 2023.08.15 09:28 140浏览 0回复
阅读更多
微软亚洲研究院推出工业场景用大模型，利用 GPT-4 控制空调系统

IT之家8月11日消息，微软亚洲研究院日前提出了一种使用 GPT-4模型来控制工业场景的空气调节系统(HVAC)的方法，据称“该方法仅需少量示例样本，就能在成本和效率上优于传统工控系统”。▲图源微软亚洲研究院发布的相关论文微软表示，对于工业场景，传统的工控软件在处理异构任务、样本低效以及适应新场景等方面需要大量时间及预算成本，而使用预训练的大模型控制相关工控设备，可以保证在高准确度的情况

Echo 2023.08.11 18:50 124浏览 0回复
阅读更多