第249章 离谱的技术(2 / 4)

尽管算法可以成功执行,但计算代价非常巨大,神经网路的训练时间达到了3天,因而无法投入实际使用。

许多因素导致了这一缓慢的训练过程,其中一种是由于尔根·施密德胡伯的学生赛普·霍克赖特于1991年提出的梯度消失问题。

最早的进行一般自然杂乱图像中自然物体识别的深度学习网络是翁巨扬(juyangn)等在1991和1992发表的生长网(crescetron)。

它也是第一个提出了后来很多实验广泛采用的一个方法现在称为最大汇集(axoolg)以用于处理大物体的变形等问题。

生长网不仅直接从杂乱自然场景中学习老师指定的一般物体,还用网络反向分析的方法把图像内被识别了的物体从背景图像中分割出来。

2007年前后,杰弗里·辛顿和鲁斯兰·萨拉赫丁诺夫(rnnv)提出了一种在前馈神经网络中进行有效训练的算法。这一算法将网络中的每一层视为无监督的受限玻尔兹曼机,再使用有监督的反向传播算法进行调优。

在此之前的1992年,在更为普遍的情形下,施密德胡伯也曾在循环神经网络上提出一种类似的训练方法,并在实验中证明这一训练方法能够有效提高有监督学习的执行速度。

自深度学习出现以来,它已成为很多领域,尤其是在计算机视觉和语音识别中,成为各种领先系统的一部分。在通用的用于检验的数据集,例如语音识别中的tiit和图像识别中的ia, cifar10上的实验证明,深度学习能够提高识别的精度。与此同时,神经网络也受到了其他更加简单归类模型的挑战,支持向量机等模型在20世纪90年代到21世纪初成为过流行的机器学习算法。

硬件的进步也是深度学习重新获得关注的重要因素。高性能图形处理器的出现极大地提高了数值和矩阵运算的速度,使得机器学习算法的运行时间得到了显著的缩短。

由于脑科学方面的大量研究已表明人脑网络不是一个级联的结构,深度学习网络在2001年后正逐渐被更有潜力的基于脑模型的网络所替代。

深度学习的基础是机器学习中的分散表示(distributed nn)。分散表示假定观测值是由不同因子相互作用生成。在此基础上,深度学习进一步假定这一相互作用的过程可分为多个层次,代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象。

深度学习运用了这分层次抽象的思想,更高层次的概念从低层次的概念学习得到。这一分层结构常常使用贪心算法逐层构建而成,并从中选取有助于机器学习的更有效的特征。

不少深度学习算法都以无监督学习的形式出现,因而这些算法能被应用于其他算法无法企及的无标签数据,这一类数据比有标签数据更丰富,也更容易获得。这一点也为深度学习赢得了重要的优势。

一部分最成功的深度学习方法涉及到对人工神经网络的运用。人工神经网络受到了1959年由诺贝尔奖得主大卫·休伯尔(david h nrsten iesel)提出的理论启发。休伯尔和威泽尔发现,在大脑的初级视觉皮层中存在两种细胞简单细胞和复杂细胞,这两种细胞承担不同层次的视觉感知功能。受此启发,许多神经网络模型也被设计为不同节点之间的分层模型。

福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。扬·勒丘恩将有监督的反向传播算法应用于这一架构。

事实上,从反向传播算法自20世纪70年代提出以来,不少研究者都曾试图将其应用于训练有监督的深度神经网络,但最初的尝试大都失败。赛普·霍克赖特在其博士论文中将失败的原因归结为梯度消失,这一现象同时在深度前馈神经