Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了282,869,192字

小细节

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
CS75 PLUS算是我今年最期待的车型了
```
想念一个人

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
长安CS75P还是很不错啊，身边的人评价都可以，我对新车很有信心
```
蝴蝶的翅膀

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
cs75plus口碑怎么样，网上随便一搜就能搜到，不用多说，看新车表现吧
```
飞天小牛

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
如果还是现在的价格，必入一辆！
```
幸福小胖珠

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
我买车主要看口碑，cs75plus口碑不错，新我肯定会去试驾的
```
a崽

在文章《比亚迪腾势 N7 车型推出限时优惠政策，2000 元可抵 5.2 万元》中回复：
```
哇！现在这个价格太顶了吧！赶紧入手！
```

野人霸霸

终于看到关注的车型，改款了，这波颜值，是我喜欢的，如果上市后的价格给力，就冲了，腾势这波改款真棒！

我是萌萌萌萌哒

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
从去年就开始关注，终于等到改款了，眼前一亮，颜值不错，期待上市价格
```

海绵小宝宝P

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：

希望将来公布的价格能给力一点，这次改款已经非常让我心动了，腾势还是懂车主的喜好的！

Wmx0819

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
改的好，改的秒，改的呱呱呱。N7大麦大麦大麦
```

该文章投稿至Nemo社区资讯板块复制链接

防止聊天机器人“造谣”，谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具

发布于 2024/03/31 17:16 67浏览 0回复 705字

IT之家 3 月 31 日消息，无论当下 AI 聊天机器人有多么强大，都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式，向用户提供与事实不符的回答。简单来说，AI 有时会在回答中“满口跑火车”，甚至“造谣”。

防止聊天机器人“造谣”，谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具

图源 Pixabay

防止 AI 大模型出现这种行为并非易事，且是一项技术性的挑战。不过据外媒 Marktechpost 报道，谷歌 DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员推出了一种基于大语言模型的工具 —— 搜索增强事实评估器（IT之家注：原名为 Search-Augmented Factuality Evaluator，简称 SAFE），可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布，点此查看

该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估，以验证准确性和真实性：将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后，该系统还会检查各个事实与原始问题的相关性。

为评估其性能，研究人员创建了包含约 16000 个事实的数据集 LongFact，并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大语言模型上测试了该系统。结果显示，在对 100 个有争议的事实进行的重点分析中，SAFE 的判定在进一步审查下正确率达到 76% 。与此同时，该框架还具备经济性优势：成本比人工注释便宜 20 多倍。

防止聊天机器人“造谣”，谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具