多亏有了 Instagram 与 Snapchat,很简单就能在照片和影片上加入滤镜效果,但是要是能按照梵谷“星夜”或孟克“吶喊”的风格来重新绘制手机上的影片,那又会是什么情况?

一支来自德国弗莱堡大学的研究团队,采用称为深度学习的人工智能技术,朝着这个目标迈出了一大步。

研究团队开发出一项方法,利用深度神经网络来从一项画作来源撷取特定的艺术风格,接着将这些信息与另一支影片进行合并。NVIDIA GPU 让他们能完成这项需要庞大运算能力的工作,产生出令人惊讶的结果。

有长期记忆的算法

过去的研究工作成功采用深度学习技术,将一帧影像的艺术风格搬到另一帧影像上。早期的研究工作发现深度神经网络在处理影像时,其神经活动会对笔触、色彩和其它抽象细节等影像的风格信息进行编码,再将此风格套用到神经网络视为第二帧影像的内容上。

不过在影片里有大量动态画面,将静态影像的画作风格套用到影片的每个影格上并非那么简单。

弗莱堡大学博士后研究员 Alexey Dosovitskiy 说:“倘若只是在每个影格上套用算法,影片的风格会不一致,会出现闪烁的画面。我们则是提出更多的限制项,让影片画面看起来更一致。”

Dosovitskiy 与其他研究员控制各影格间的变化程度,以达到影片出现一致画面风格的目标,而此举出现了三大难题:

1.画面里的角色在场景间移动时,应有一致的风格

2.背景等静态元素应在各影格间维持一致的风格

3.角色离开视野后,背景应回到角色移动前的样子

研究团队的算法加入限制项来解决连续影格风格差异太大的问题,还使用长期偶发事件技术来辅助连续性,该区域再次出现时,便会复制稍早从多个影格里同一场景同一区域的影像构成内容。


巧妙限制深度学习算法,以在动态影片里产生出更一致的风格。

研究团队使用 NVIDIA GPU,以求落实这项复杂的工作。在 GeForce GTX TITAN X GPU 的辅助下,将画作风格搬到高画质影片的一个影格上耗时8到10分钟,较使用多核心 CPU 的速度快上20倍。

“这是一项极为耗时的工作,从这里就能看出 GPU 的重要性。”Dosovitskiy 说。

研究团队还使用对于存储器要求较少的 cuDNN 深度学习软件,来执行将艺术风格搬到高画质影片上的工作。多 GPU 系统虽能加快处理速度,目前仍达不到实时搬动的目标。

到目前为止研究团队已在直播和动态影片上套用过这项算法,两者皆呈现出优秀的渲染结果,不过 Dosovitskiy 觉得观看者对于直播画面会要求更多。

“人们对于画面闪动非常敏感,在看影片之际,就算闪动的程度极小,还是能感觉到。”他说。