Echo

Echo 关注TA

大家好,我是Echo!

Echo

Echo

关注TA

大家好,我是Echo!

  •  普罗旺斯
  • 自由职业
  • 写了280,136,759字

最近回复

该文章投稿至Nemo社区   资讯  板块 复制链接


一键空中“画”窗户!MIT和IBM联合发布“GAN 绘画工作室”

发布于 2019/07/16 19:30 529浏览 0回复 2,842

对照片里的某个物品不满意怎么办?

很多人可能会想到P图,但是P图的效果...手残党可能无福消受,并且耗时耗力。

有没有一款应用或者软件可以在照片指定的位置很自然地编辑场景中的物体呢?

是的,又是GAN再一次不负众望,一家由麻省理工学院和IBM团队建立的“GAN绘画工作室”,可以自动生成逼真摄影图像并编辑其中对象的系统。

先附上在线制作地址:点此进入

图片场景的编辑演示

上文给出的链接是GAN绘画工作室在线交互平台,允许用户上传自选图像以从多种角度修改其外观——从更改对象的大小到添加全新的物体(如树木和建筑物),什么都可以哦,感兴趣的读者可以先尝试一番。

下图是文摘菌给出的示例图片,在平台中选择橡皮擦工具,选择图片中的chairs可以删除,得到Output result的生成图片,图片的无损、自然地还原让我们再一次对AI惊叹!

除了可以删除场景中的物体外,在线平台还支持物体的添加,如下图在选中的黄色区域中生成了一个窗户,输出图与原图相比并不是显得很突兀。

这么神奇,是怎么做到的?

透过现象看本质:揭开神秘面纱

在讲解这个系统实现前,先来简单介绍下GAN——生成对抗网络。

GAN是为内部网络相互对抗而开发的一组神经网络,从二人零和博弈中受到启发。在这种情况下,一个网络是逼真图像生成器,而第二个则是鉴别器(以保证不被生成器欺骗)。每次鉴别器认为生成器在骗人时,它都必须”说明“自己做出此判断的原因——这很有助于生成器不断提高自己骗人的本领。

这好像有点抽象,下面将解释具体的原理。很显然这个任务从原始的Input photo得到输出图片Out result,属于在原始图片的基础上生成新的图片,需要用到GAN强大的图像生成的功能。那么是如何生成的呢?

以上图为例,为了在图像X上执行语义编辑任务,需要执行以下三个步骤:

  • 我们先用一个中间向量z=E(x)代表图像x;

  • 然后使用ze=edit(z)向量表示诸如:移除、添加等改变图像语义的操作概念;

  • 最后,我们从修改后的ze重新生成图像。

值得注意的是,通常输入图像x不能由发生器G精确生成,因此(c)使用生成器G创建编辑后的图像G(xe)将导致许多原始图像的细节和属性的丢失,发生器G生成的G(z),丢失了原始图像书桌旁边的柜子,后续操作只会导致“错上加错”。因此,为了生成图像,我们提出了新的最后一步(d)学习图像特定的生成器G',其可以产生在未编辑区域中与原始图像x无异的x'e = G'(ze)。

这种策略具有可行性,但在技术上任然面临两大挑战,列举如下:

很难找到一个潜在的中间向量z,使得可以利用深度生成模型生成G(z)来捕获图像的视觉内容;上图中的(b)只不过是(a)图的粗略表达;

在一系列操作之后,来自生成模型的新合成像素通常与现有图像内容不相容,这使得新内容拼接成原始图像的背景具有挑战性。

在相关论文中提出使用图像特定的自适应方法解决了上述两个问题。关键点是学习图像特定的生成模型G'≈G,此模型产生的图片高精度的还原了输入图像x,如上图(d)所示,并且使x≈G′(z)在图像的编辑区域之外。

Bau,Strobelt,Torralba和Zhu与前CSAIL博士生Bolei Zhou,博士后助理Jonas Wulff和本科生William Peebles参与撰写了相关论文,感兴趣的读者可展开后续研究。

附上论文地址:点此进入

会有bug吗?能在空中画窗户吗?

答案是不会。

这一研究有一项意外的发现:系统似乎学会了一些关于物体之间关系的简单规则。它知道有些物体不属于某些特定场景,比如窗户就不该在天空中。它还知道如何创造不同场景的视觉效果。例如,如果图像中有两栋需要系统为之添加门的建筑,它不会简单地添加相同的门,而是非常不同的两扇门。

“所有绘图应用程序都会遵循用户指令,但我们这个不一样。如果用户让它把一件物体放在完全不合适的地方,它可能会拒绝哦。”,Torralba说。“这是一件个性鲜明的绘图工具。它为我们打开了一扇窗户,让我们理解GAN是如何学会绘画的。”

“这项工作帮助我们直观地看到GAN真的开始‘理解’常识性知识了,这真是让人兴奋呢。“,芬兰阿尔托大学副教授Jaakko Lehtinen说。“这项能力对于搭建最终能够自主运行的系统真的很关键——毕竟人类世界复杂多变,具有无限可能性。”

仅仅是为了编辑图像?NO!

麻省理工学院教授安东尼奥·托拉尔巴(Antonio Torralba)是MIT-IBM沃森人工智能实验室的牵头人。他指出该项目具有巨大的潜在应用价值。

应用1:影视视频场景的编辑

设计师和艺术家可以使用它来更快地调整他们想要的视觉效果。而对系统做出一些改进使其适应视频剪辑的话,则将帮助计算机图形编辑器快速组成特定镜头所需对象的特定排列。想象一下这样一个应用场景吧:如果一位导演拍摄了演员的完整场景,但忘记了在背景中包含一个对剧情很重要的东西,这个项目就能派上用场啦。

应用2:剔除“假”图像

IBM的研究科学家Hendrik Strobelt说:“从前,每当GAN产生非常不切实际的图像时,这些错误的来源就是一个谜。”。“我们发现这些错误是由特定的神经元触发的,我们可以剔除它们以提高图像的质量。”

“知己知彼,百战不殆。”这位CSAIL的博士后说。“这种理解可能有助于我们更轻松地检测假图像。”

为了开发该系统,该团队首先确定了GAN内部与特定类型的对象(如树木)相关的单元。随后对这些单元进行单独测试,看看它们存在与否是否会决定某些物体是否出现。重要的是,他们还确定了导致视觉错误的单元,并努力将其移除以提高图像的整体质量。

该团队的目标是让人们更好地控制GAN网络。但是他们认识到,随着权力的增加,滥用的可能性也将大大增加——允许医生使用这些技术来拍摄照片就是一个潜在的例子。合作者Jun-Yan Zhu表示,深入了解GAN以及其所犯的错误将非常有助于研究人员更好地消除伪造图像。

带来的反思

通过分析需要删除的“工件”单元,GAN绘画工作室还可用于改进和调试正在开发的其他GAN。在这个AI工具的原理并不清晰却使图像处理比以往更容易的时代,它可以帮助研究人员更好地理解神经网络及其底层结构。同时研究人员也有提到,“这个系统为更好地理解GAN模型打开了一扇大门,这将有助于我们对GAN进行多方面的研究。”

其他功能如图片中的风格切换功能还未成熟应用,如下图中改变真个树木的色调以呈现不同的季节:

“目前,机器学习系统其实就是一些我们并不总是知道如何改进的黑盒子。这就有点像那些你不敲一下就不会出声儿的旧电视机,”,主笔写过一篇关于这个系统的文章的Bau说。 “这项研究表明,虽然拆开电视研究一下里面都有些啥可能会让人望而生畏,但那真的能够提供许多有用信息的。”

AI越来越“智能”,这背后带给我们什么反思呢?读者可以在后台留言交流。


本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/433/709.htm]

点赞(0)
点了个评