深度学习巅峰之年:技术、开源、兼并和硬件发展全回顾(附论文合集)

本文是对2016年深度学习领域的进展的综述和回顾,介绍了2016年该领域的一些重要研究成果,包括无监督学习、增强学习、生成对抗网络等,以及产业中的合作与并购,硬件和芯片方面的新动作等。本文既是回顾,也是展望,这些领域在已经开始的2017年将有什么新发展,令人期待。

论文下载:

https://pan.baidu.com/s/1o80LWO6


一般意义上的人工智能,以及深度学习,其成功受到三个因素的影响。首先,有可用的计算能力和架构,例如快速的GPU,云服务提供商,以及工具(Tensorflow,Torch,Keras等);其次,有数量大、质量高的训练数据;以及第三,有使用训练数据,在硬件上运行的算法(CNN,LSTM,SGD)。深度学习的每一个新的发展或者进步背后,都来源于这三个因素中某一个的进步。

无监督与增强学习

2016年深度学习的许多进展是由于前两个因素的进步。我们现在已经拥有与人类水平相当的图像和语音识别系统,而且有相当丰富的数据,有各种工具可以开发这些系统。

然而,几乎所有这些系统都依赖于监督学习,进一步依赖于有标记数据集的可用性。我们在2016年看到的许多革命性的成果,无论是医学成像、自动驾驶汽车还是机器翻译,也都指出一个事实,即沿着数据和计算能力的轴移动将导致边际回报减少。

这意味着,最大的好处化可能来源于第三个条件的推动,即开发能够从原始的未标记的数据,例如视频或文本中学习的算法。2016年这方面的研究取得了一些重要进展,Yann LeCunn在演讲中列举了主要的一些

深度增强学习

对于深度增强学习,Andrej Karpathy做过一个很好的概述:http://karpathy.github.io/2016/05/31/rl/

其基本的设置很简单:我们有一个代理,可以执行一系列可允许的动作,其导致的结果是由奖励函数判断给予奖励或惩罚。让我们来看这个乒乓球小游戏,这里一个代理有两个可行的动作,向上或向下,其结果是球是否被挡回或代理错过了球,根据结果代理会得到奖励或惩罚。


乒乓球代理

解决增强学习问题的目前最先进的方法是策略梯度(Policy Gradients),它与蒙特卡罗树搜索(Monte Carlo Tree Search)一起被DeepMind用于AlphaGo。与人们可能认为的相反,策略梯度非常直接,网络接收一定数量的游戏数据作为输入,包括帧序列、代理采取的动作和结果(赢/输),然后应用反向传播更新网络参数,使引向赢的结果的动作比引向输的结果的动作概率更大。

RL的成功以及它不需要高昂的标记数据这一事实也使得网络架构方面得到推进,引入了一系列的模拟平台,例如 OpenAI 的 gym / universe 平台,还有 DeepMind 与暴雪公司合作,发布了作为模拟环境的《星际争霸2》。现在任何人都可以在 GTA V 平台上训练他们的自动驾驶算法,这是增强学习在现实世界中应用和推广的重要一步。

然而,RL圈子的研究人员提出警告,学习玩游戏并不是通往更广泛的 AI 的直接路径。Hal Daume 在 Whence your reward function? 一文中提出,游戏提供了简单、明确的奖励函数和频繁的小奖励,这些奖励同时把人类和机器指向正确的方向,上述的乒乓球游戏就是一个很好的例子。然而,如果你想训练一个工业级的机器人,这种 “good boy” / “bad boy” 的奖励只在10亿帧结束后分配,而积极的奖励只有在较大的动作空间里一系列复杂的行动结束后才能得到?Hal 的文章提出了一些解决方案,我们期待2017年及之后在算法层面取得进展。这方面的一个重要成果是 DeepMind JX Wang 等的论文 Learning to Reinforcement Learn,作者提出深度元增强学习(deep meta-reinforcement learning)的方法,使得RL方法能够快速适应新任务,从而减少训练算法对新任务所需的数据量。

生成模型

2016年在算法方面还有另一个重大进展,某种意义上来说这使我们更接近无监督学习,即生成对抗网络(GAN)的兴起。虽然 Ian Goodfellow 早在2014年已经介绍过 GAN,但直到2016年发表了一份详细介绍深度卷积架构的论文,才是 GAN 真正被重视的开始。简单地说,GAN 由两个网络组成:一个生成器(G)和一个鉴别器(D),给定一组训练样本,G 将生成输出,而 D 将这些输出分类为与训练样本相同的分布。这样,D 能够被优化以区分训练样本和生成器网络输出的样本;反过来,该生成器网络 G 也能被优化以欺骗 D,令 D 将其输出的样本误认为是训练样本。


在经过这样的训练之后,G 现在可以生成具有与训练样本非常相似的特征的样本。更深入的介绍可以参考 John Glover 在 Aylien 上的文章。Scott Reed 等在 ICML 2016 提交的论文 Generative Adversarial Text to Image Synthesis 中展示了GAN所能做到的一个令人印象深刻的例子,即使用GAN将文本转换为图像。


更近一些的成果,例如使用GAN从各种物体的2D视图生成3D视图。但一个问题是,GAN往往很难训练,虽然 OpenAI 提出过克服训练GAN的困难的一些小技巧。鉴于GAN有如此令人印象深刻的能力,许多行业里的大人物希望GAN能够通过改变传统的监督学习方法来解决迄今难以解决的问题。例如,Yann LeCun 认为,GAN将为拥有预测能力的AI铺平道路,这将赋予虚拟助理和聊天机器人必要的“常识”,从而能够以更自然的方式与人类互动。

2016年出现的另一类引起关注的生成模型是DeepMind的语音生成模型 WaveNet,图像生成模型 PixelRNN和 PixelCNN,以及视频生成模型 VPN(Video Pixel Network)。这些生成模型学习某些特征的联合概率,例如图像中所有像素的联合概率,然后根据给定的先前产生的所有像素预测下一个像素。很容易理解这种方法能够如何适用于声波和视频帧。


开源大势

实际上,以上提到的大部分研究都来自私营公司或非学术圈的非盈利组织,这表明了2016年非常明显的另一个趋势:AI发展的开放性。

小结一下:Facebook 发布了用于运行AI系统的硬件设计,FAIR以惊人的速度持续发布杰出的研究;马斯克以及其他科技巨头为OpenAI投资了10亿美元,他们出了发布研究结果还想公众开放模拟环境 universe;谷歌也在提供大量资源推动深度学习的研究,开放 TensorFlow 库等;Uber 建立了AI研究实验室,最近甚至苹果公司也开始发表AI论文。数据方面也同样有很大进展,几个大公司发布了大量标记数据集,这些数据集对训练深度神经网络十分重要。其中一些值得注意的数据集包括拥有500000小时带标记视频的Youtube视频数据集,以及雅虎的13.5TB的用户数据集。

合作与收购

仅今年一年,Salesforce 收购了 MetaMind 和 Prediction.IO,Uber 得到了 Geometric Intelligence,亚马逊得到聊天机器人公司 Angel.ai,英特尔公司分别收购Nervana Systems和Movidius,分别是专注深度学习计算架构和计算机视觉的创业公司,另外通用汽车公司收购了Crew Automation 自动驾驶汽车创业公司。


收购只有在其整体结果比各部分的结果加起来更有价值时才有意义。很少有其他领域能比深度学习和AI领域更适合这种情况。例如,将 MetaMind 的非常厉害的深度学习能力整合到世界上最大的 CRM 系统中,以简化或直接解决大量的重要任务,这是极好的价值增倍。这些初创公司现在所做的事情,如果它们没有与收购它们的公司合作,是不可能实现的。

硬件和芯片

我想通过对比作为深度学习核心的硬件设备和两家公司——英伟达和英特尔,来作为这篇综述的结尾。虽然英伟达的GPU仍然是在深度学习领域无可争议的市场领导者,但英特尔已经采取了一些措施来缩小这个差距。不过,英特尔也知道不可能轻易超越英伟达,所以先是收购了Nervana Systems来为建立一般深度学习基础平台打下坚实基础, 接着又收购Movidius以获得高性能的SoC平台,加速计算机视觉方面的应用。除此之外,英特尔宣称将在未来两年内在自动驾驶领域投资2.5亿,实践他们“以AI为中心”的宣言。今年,英特尔收购的第一批成果将以深度学习芯片的形式进入市场。

 

与此同时,英伟达斥资20亿美元于一个名为 R&D 的新项目。他们在4月份发布新的芯片,基于 Pascal 架构的 Tesla P100 GPU,以及世界上第一台深度学习超级计算机 DGX-1,它使用8x 16GB Tesla GPU,提供250个基于CPU的服务器,其中,网络、电缆和机架都在一个单独的盒子里。

 

然而,这些令人印象深刻的新产品和硬件空间的日益激烈的竞争其实对现金困难的初创公司有利,因为复杂的深度学习架构的成本变得更便宜,也更容易获得。此外,如果创业公司设法找到能使他们获得更多高质量的数据的合作机会,我们可能会看到独立玩家出现更多结果,巨头驱动的兼并趋势可能会放缓。另外,我们已经看到,减少对数据的依赖提出了对能使用未标记数据的算法的需求。所以,进入新的一年,生成方法以及增强学习的研究将令人瞩目。

本文由 Easy 第一时间收藏到GET,原文来自 → mp.weixin.qq.com

「GetParty」

关注微信号,推送好文章

微信中长按图片即可关注

更多精选文章

评论
微博一键登入