网络和循环神经网络中出现,后者的训练过程类似深度网络。在分层训练的过程中,本应用于修正模型参数的误差随着层数的增加指数递减,这导致了模型训练的效率低下。
为了解决这一问题,研究者们提出了一些不同的方法。于尔根·施密德胡伯于1992年提出多层级网络,利用无监督学习训练深度神经网络的每一层,再使用反向传播算法进行调优。在这一模型中,神经网络中的每一层都代表观测变量的一种压缩表示,这一表示也被传递到下一层网络。
另一种方法是赛普·霍克赖特和于尔根·施密德胡伯提出的长短期记忆神经网络(lst)。
2009年,在icdar 2009举办的连笔手写识别竞赛中,在没有任何先验知识的情况下,深度多维长短期记忆神经网络获取了其中三场比赛的胜利。
斯文·贝克提出了在训练时只依赖梯度符号的神经抽象金字塔模型,用以解决图像重建和人脸定位的问题。
其他方法同样采用了无监督预训练来构建神经网络,用以发现有效的特征,此后再采用有监督的反向传播以区分有标签数据。杰弗里·辛顿等人于2006年提出的深度模型提出了使用多层隐变量学习高层表示的方法。这一方法使用斯摩棱斯基于1986年提出的受限玻尔兹曼机对每一个包含高层特征的层进行建模。模型保证了数据的对数似然下界随着层数的提升而递增。当足够多的层数被学习完毕,这一深层结构成为一个生成模型,可以通过自上而下的采样重构整个数据集。辛顿声称这一模型在高维结构化数据上能够有效地提取特征。
吴恩达和杰夫·迪恩领导的谷歌大脑团队创建了一个仅通过youtube视频学习高层概念(例如猫)的神经网络。
其他方法依赖了现代电子计算机的强大计算能力,尤其是gu。2010年,在于尔根·施密德胡伯位于瑞士人工智能实验室idsia的研究组中,丹·奇雷尚(dan ciresan)和他的同事展示了利用gu直接执行反向传播算法而忽视梯度消失问题的存在。这一方法在扬·勒丘恩等人给出的手写识别nist数据集上战胜了已有的其他方法。
截止2011年,前馈神经网络深度学习中最新的方法是交替使用卷积层(nvotional yers)和最大值池化层(axoolg yers)并加入单纯的分类层作为顶端。训练过程也无需引入无监督的预训练。从2011年起,这一方法的gu实现多次赢得了各类模式识别竞赛的胜利,包括ijn 2011交通标志识别竞赛和其他比赛。
这些深度学习算法也是最先在某些识别任务上达到和人类表现具备同等竞争力的算法。
深度神经网络是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统建模,但多出的层次为模型了更高的抽象层次,因而提高了模型的能力。深度神经网络通常都是前馈神经网络,但也有语言建模等方面的研究将其拓展到循环神经网络。卷积深度神经网络(nvotional neuralnrks, n)在计算机视觉领域得到了成功的应用。此后,卷积神经网络也作为听觉模型被使用在自动语音识别领域,较以往的方法获得了更优的结果。
其他神经网络模型类似,如果仅仅是简单地训练,深度神经网络可能会存在很多问题。常见的两类问题是过拟合和过长的运算时间。
深度神经网络很容易产生过拟合现象,因为增加的抽象层使得模型能够对训练数据中较为罕见的依赖关系进行建模。对此,权重递减或者稀疏等方法可以利用在训练过程中以减小过拟合现象。
另一种较晚用于深度神经网络训练的正规化方法是丢弃法(“droout“ nn)