人大经济论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 658|回复: 3

深度学习浅谈(下)

[复制链接]
发表于 2016-12-27 18:29:46 | 显示全部楼层 |阅读模式
本帖最后由 OER 于 2016-12-27 18:31 编辑

转自 定量群学 微信公众号

卷积神经网络与图像理解
卷积神经网络(CNN,Convolutional neural networks)是深度学习中最具代表性的一类框架,从21世纪开始,卷积神经网络就被成功的大量用于检测、分割、物体识别以及图像识别的各个领域,比如交通信号识别,生物信息分割,面部探测,文本、行人探测等,特别是最近几年,卷积神经网络在人脸识别领域更是取得了巨大的成功。

在图像识别中,卷积神经网络通过组合图像的低级特征的来合成高级特征,即先将图像局部边缘的组合形成基本图案,这些图案形成物体的局部,然后再形成物体。在这个过程中,卷积神经网络使用4个关键的想法来进行特征处理:局部连接(local connections)、权值共享(shared weights)、池化(pooling)以及多网络层(many layers)的使用。

局部连接可以大大减少训练参数的数量(如图3)。比如,图中左边是全连接,右边是局部连接。对于一个1000 × 1000的输入图像而言,如果下一个隐藏层的神经元数目为10^6个,采用全连接则有1000 ×1000 × 10^6 = 10^12个权值参数,如此数目巨大的参数几乎难以训练;而采用局部连接,隐藏层的每个神经元仅与图像中10 × 10的局部图像相连接,那么此时的权值参数数量为10 × 10 × 10^6 =10^8,将直接减少4个数量级。

另外一种减少参数的方式是权值共享(如图4)。局部连接中隐藏层的每一个神经元连接的是一个10 × 10的局部图像,因此有10 × 10个权值参数,将这10 × 10个权值参数共享给剩下的神经元,也就是说隐藏层中10^6个神经元的权值参数相同,此时不管隐藏层神经元的数目是多少,需要训练的参数就是这 10× 10个权值参数(也就是卷积核(也称滤波器)的大小)。在计算机视觉和图像处理中,卷积时的权值矩阵被称为卷积核(Kernel),在信号处理中也成为滤波(Filter)。不同的卷积核能够得到图像的不同映射下的特征,称之为特征映射(FeatureMap)。

卷积神经网络主要包括两种网络层(如图5),分别是卷积层(convolutional layer)和池化/采样层(pooling layers)。卷积层的作用是提取图像的各种特征,卷积层中的单元被组织在特征映射中,其中每个单元通过滤波器组的权值来连接到前一层的特征映射中的局部块,然后这个局部加权和被传给一个非线性函数(激励函数),比如ReLU。特征映射中的所有单元共享相同的滤波器组.。不同的特征映射使用不同的滤波器组。池化层的作用是对原始特征信号进行抽象,从而大幅度减少训练参数,减轻模型过拟合的程度。池化层把相似的特征进行合并,一般地,池化单元选择特征映射中的一个局部块的最大值或是平均值,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数,降低了网络参数选择的复杂度。卷积神经网络上进行的反向传播算法和在一般的深度网络上是一样的,可以让所有的滤波器组的权值得到训练。在数学上,由于特征映射执行的过滤操作是离散的卷积,卷积神经网络因此得名。
对于卷积神经网络的应用,LeCun Y,Bengio Y,Hinton G(2015)重点提到了标志性的2012年的ImageNet竞赛。在该竞赛中,深度卷积神经网络被用在上百万张网络图片数据集,这个数据集包含了1000个不同的类。该结果获得了前所未有的成功,几乎比当时最好的方法降低了一半的错误率。这个成功来自有效地利用了GPU、ReLU、一个新的被称为dropout的正则技术,以及通过分解现有样本产生更多训练样本的技术。这个成功给计算机视觉带来一场革命。正是这次竞赛让学界重新认识到深度学习的价值,并且得到Google、Facebook、Microsoft、IBM,yahoo!、Twitter和Adobe等公司的高度重视。







 楼主| 发表于 2016-12-27 18:30:03 | 显示全部楼层
分布式特征表示与语言处理

深度学习在自然语言处理的应用中,将语义信息处理成稠密、低维的实值向量。向量的每一维都表示文本的某种潜在的语法或语义特征。这样的表示形式被称作分布式特征表示(Distributed representations)。将原有高维、稀疏、离散的词汇表示方法(又称One-hot表示)映射为分布式特征表示这一种降维方法,可有效克服机器学习中的维数灾难(Curseof Dimensionality)问题,从而获得更好的学习效果。在分布式特征表示中,不同维度表示了词的不同主题,各维度上的数值表示了一个词对于不同主题的权重,这相当于将原来线性不可分的一个词抽取出其各个属性,从而更有利于分类。这样的处理方式,可以通过计算向量之间相似度的方法(如余弦相似度),来计算语义的相似度。 比如西红柿和番茄的词向量比较相似,即使在训练中我们并没有观察到番茄,但通过两者的词向量,我们也可以判断两者的相似程度很高,从而缓解了自然语言处理中常见的数据稀疏问题。

LeCun Y,BengioY,Hinton G(2015)认为,特征表示基于对逻辑启发和神经网络的认识。在逻辑启发的范式中,一个符号实例表示某一事物,因为其唯一的属性与其他符号实例相同或者不同。该符号实例没有内部结构,并且结构与使用是相关的,为了理解符号的语义,就必须与变化的推理规则合理对应。与之相反,神经网络利用了大量活动载体、权值矩阵和标量非线性化,来实现能够支撑简单容易的、具有常识推理的快速“直觉”功能。这样一来,可以更容易的预测目标输出,比如将本地文本的内容作为输入,训练多层神经网络来预测句子中下一个单词。
 楼主| 发表于 2016-12-27 18:30:24 | 显示全部楼层
递归神经网络

递归神经网络(RNNs)又称循环神经网络,不同于传统的前馈神经网络(feedforwardneural network),递归神经网络中的每层的神经元之间是有向连接的,即神经元间连接构成有向图。利用这样的结构,递归神经网络(RNNs)将状态在自身网络中循环传递,因此可以处理更广泛的时间序列数据。RNNs一次处理一个输入序列元素,同时维护网络隐藏层中包含过去时间序列数据的历史信息的“状态向量”。

RNNs一旦展开(如图6),可以将之视为一个所有层共享同样权值的深度前馈神经网络。但是在实际的训练中,这样的结构会产生“梯度的爆发与消失”(exploding and vanishing gradients)问题,难以做到长期保存信息。为了解决这个问题,一些学者提出了采用了特殊隐式单元的长短期记忆神经网络(LSTM,long short-termmemory networks),由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件,该结构可以长期的保存输入。LSTM单元包含一个尝试将信息储存较久的存储单元。这个记忆单元的入口被一些特殊的门神经元(gate neurons)所保护,被保护的功能包括保存、写入和读取操作。

LSTM网络被证明比传统的RNNs效果更好。目前LSTM网络或者相关的门控单元同样用于编码和解码网络,并且在机器翻译中表现良好。而在过去几年中,几位学者提出了用于增强RNNs的记忆的其他模块,比如神经图灵机和记忆网络等。
 楼主| 发表于 2016-12-27 18:30:40 | 显示全部楼层
深度学习的未来展望

最后,LeCun Y,Bengio Y,Hinton G(2015)提出了对于深度学习的未来展望。
无监督学习对于重新点燃深度学习的热潮起到了促进的作用,但是纯粹的有监督学习的成功盖过了无监督学习。在本篇综述中虽然这不是重点,LeCun Y,Bengio Y和HintonG(2015)还是期望无监督学习在长期内越来越重要。无监督学习在人类和动物的学习中占据主导地位:通过观察能够发现世界的内在结构,而不是单纯被告知每一个客观事物的名称。

人类视觉是一个智能的、基于特定方式的利用小或大分辨率的视网膜中央窝与周围环绕区域对光线采集成像的活跃的过程。LeCun Y,Bengio Y,HintonG(2015)期望未来在机器视觉方面会有更多的进步,这些进步来自那些端对端的训练系统,并结合ConvNets和RNNs,采用强化学习来决定走向。结合了深度学习和强化学习的系统虽然正处于初级阶段,但已经在分类任务中超过了被动视频系统,并在学习操作视频游戏中产生了令人印象深刻的效果。

在未来几年,自然语言理解将是深度学习做出巨大影响的另一个领域。LeCun Y,Bengio Y,HintonG(2015)预测那些利用了RNNs的系统将会更好地理解句子或者整个文档。

最终,在人工智能方面取得的重大进步将来自那些结合了复杂推理表示学习(representation learning )的系统。尽管深度学习和简单推理已经在语音和手写字识别应用了很长一段时间,但仍需要通过操作大量向量的新范式来代替基于规则的字符表达式操作。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|Archiver|手机版|小黑屋|人大经济论坛 ( 京ICP备05066828号-20 京公网安备 11040202430141号 )

GMT+8, 2019-12-6 22:17 , Processed in 0.043659 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表