Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了282,874,233字

小细节

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
CS75 PLUS算是我今年最期待的车型了
```
想念一个人

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
长安CS75P还是很不错啊，身边的人评价都可以，我对新车很有信心
```
蝴蝶的翅膀

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
cs75plus口碑怎么样，网上随便一搜就能搜到，不用多说，看新车表现吧
```
飞天小牛

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
如果还是现在的价格，必入一辆！
```
幸福小胖珠

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
我买车主要看口碑，cs75plus口碑不错，新我肯定会去试驾的
```
a崽

在文章《比亚迪腾势 N7 车型推出限时优惠政策，2000 元可抵 5.2 万元》中回复：
```
哇！现在这个价格太顶了吧！赶紧入手！
```

野人霸霸

终于看到关注的车型，改款了，这波颜值，是我喜欢的，如果上市后的价格给力，就冲了，腾势这波改款真棒！

我是萌萌萌萌哒

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
从去年就开始关注，终于等到改款了，眼前一亮，颜值不错，期待上市价格
```

海绵小宝宝P

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：

希望将来公布的价格能给力一点，这次改款已经非常让我心动了，腾势还是懂车主的喜好的！

Wmx0819

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
改的好，改的秒，改的呱呱呱。N7大麦大麦大麦
```

该文章投稿至Nemo社区资讯板块复制链接

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

发布于 2022/06/30 14:26 300浏览 0回复 2,238字

现在，让机械狗自己打滚一个小时，它就能学会走路了！

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

步态看着相当有模有样：

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

还能扛住大棍子的一通狂怼：

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

就算是摔了个四仰八叉，翻个身自己又站起来了：

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

如此看来，训机械狗和普通训狗真是要没什么两样了啊。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

这就是 UC 伯克利大学带来的最新成果，让机器人直接在实际环境中训练学习，不再依赖于模拟器。

应用这一方法，研究人员在短时间内训练出了 4 个机器人。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

比如开头看到的 1 小时学会走路的机械狗；

还有 2 个机械臂，在 8-10 小时实战抓取后，表现接近于人类水平；

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

以及一个拥有计算机视觉的小机器人，在自己摸索 2 小时后，能丝滑地滚动到指定位置。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

该研究由 Pieter Abbeel 等人提出，Pieter Abbeel 是吴恩达的第一位博士生，前不久他刚刚获得 2021 ACM 计算奖（ACM Prize in Computing）。

目前，该方法的所有软件基础架构已经开源。

一个叫做“空想家”的算法

本文方法的 pipeline 大致可分为 4 步：

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

第一步，是先把机器人放在真实环境里，收集数据。

第二步，把这些数据传输到 Replay Buffer。这一步骤就是利用历史数据进行训练、“总结经验”，高效利用收集到的样本。

第三步，World Model 会对已有经验进行学习，然后“脑补”出策略。

第四步，再用演员评论家（Actor Critic）算法来提升策略梯度法的性能。

然后循环往复，将已经提炼出的办法再使用到机器人身上，最后达到一种“自己摸索学习”的感觉。

具体来看，这里的核心环节是 World Model。

World Models 是 2018 年由 DAVID HA 等人提出的一种快速无监督学习方式，获得了 NIPS 2018 的 Oral Presentation。

它的核心理念是认为人类是基于已有经验，形成了一个心理世界模型，我们所做的决定和行动都是基于这个内部模型。

比如人类在打棒球时，做出反应的速度远比视觉信息传达到大脑中的快，那么在这种情况下还能正确回球的原因，就是因为大脑已经做出了本能的预测。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

此前，基于 World Model 这种“脑补”的学习方法，谷歌提出了 Dreamer 这种可扩展的强化学习方法。

这一次提出的方法是在此基础上，叫做 DayDreamer。

（貌似可以叫做空想家？）

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

具体来看，World Model 就是一个智能体模型。

它包括一个视觉感知组件，能将看到的图像压缩成一个低维的表征向量作为模型输入。

同时还有一个记忆组件，可以基于历史信息，对未来的表征向量做出预测。

最后，还包括一个决策组件，它能基于视觉感知组件、决策组件的表征向量，决定采取怎样的动作。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

现在，我们回到本次 UC 伯克利学者提出的方法。

不难发现，其中 World Model Learning 部分的逻辑就是一个经验积累的过程，Behavior Learning 部分则是一个动作输出的过程。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

本篇论文方法的提出，主要解决了机器人训练中两方面的问题：

效率和准确率。

一般来说，训练机器人的常规方法是强化学习，通过反复实验来调整机器人的运作。

不过这种方法往往需要非常大量的测试，才能达到很好的效果。

不仅效率低下，而且训练需要付出的成本也不低。

后来，不少人提出在模拟器中对机器人进行训练，可以很好增效降本。

但是本文作者认为，模拟器训练方法在准确性方面的表现还是不够好，只有真实的环境才能让机器人达到最好的效果。

从结果来看，在训练机器狗的过程中，只花 10 分钟时间，机器狗就能适应自己的行为了。

和 SAC 方法对比来看，效果有明显提升。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

在机械臂训练过程中，这一新方法还克服了视觉定位和稀疏奖励的挑战，几小时内的训练成果明显优于其他方法。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

研究团队

值得一提的是，本次带来新成果的研究团队成员，也非常令人瞩目。

其中，Pieter Abbeel 是吴恩达的开山大弟子。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

他现在是 UC 伯克利电气工程和计算机科学教授，伯克利机器人学习实验室主任，伯克利 AI 研究院共同主任，曾加入过 OpenAI。

前不久，他还获得了 2021 ACM 计算奖（ACM Prize in Computing），以表彰其在机器人学习方面的贡献。

与此同时，他还是 AI 机器人公司 Covariant 的联合创始人。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

另一位 Ken Goldberg，也是 AI 领域的顶级专家。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

他现在是 UC 伯克利工程教授，研究方向为强化学习、人机交互等。

2005 年，他被评选为 IEEE 院士。

与此同时，Goldberg 还是一位艺术家，是 UC 伯克利艺术、科技文化研讨会的奠基人。

此外，Philipp Wu、Alejandro Escontrela、Danijar Hafner 三人为共同一作。

其中 Philipp Wu 还只是 UC 伯克利一位大四的学生。

One More Thing

在观看机械狗训练的视频时，我们发现研究人员使用的 Unitree 机械狗，这个品牌来自中国企业宇树科技，之前登上过春晚的机器小牛，也来自它家。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

而且，最近宇树机器狗集体进行 Go1 测试的视频曝光，还在国外火了一波。

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

论文地址：

https://danijar.com/project/daydreamer/

参考链接：

https://worldmodels.github.io/

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/627/159.htm]

本文标签
ai 机器狗

上一个文章：网络小说网站宝书网永久关闭，目前已停止访问

下一个文章：苹果 App Store 新规今日起生效：应用必须内置“删除账号”功能

点了个评

Echo

最近回复

新出生的机器狗，打滚 1 小时后自己掌握走路，吴恩达开山大弟子最新成果

一个叫做“空想家”的算法

研究团队

One More Thing

点击排行

没有找到这位爷的热门文章哦~

最新文章

哈曼卡顿音乐水晶四代“墨金典藏版”音箱开售：2.1 架构 HiFi 音质，首发 2399 元

2024 常见 macOS 恶意软件洞察：勒索软件、木马仍占主导地位

魅族 21 Note 手机今日开售：骁龙 8 Gen 2 处理器，售价 2599 元起

4 根 131 米“大长腿”，我国新一代自升式海上风电安装平台“大桥海风”交付

我国科研团队发现铁电材料中的“奇点”

小米米家体重秤 S200 开售：4 项身体指标一次获取，售价 69 元

配握持手柄配件，蓝色版松下 LUMIX S9 相机照片曝光

今年抢手颜色，郭明錤预测苹果 iPhone 16 Pro / Max：玫瑰色替代蓝色

今日小满：微雨过，小荷翻，初夏至

华硕 ROG XG27AQDMG 26.5 英寸 OLED 显示器上架：2K 240Hz、4999 元