澄清深度学习与机器学习关系并系统整理深度学习相关知识

hwyzw 发表于 2025-2-2 03:23:07

许多人误会了，认为深度学习比机器学习更先进。实际上，深度学习是机器学习的一个分支。它可以理解为具有多层结构的模型。具体而言，深度学习是一种具有深层结构的神经网络算法，即机器学习>神经网络算法>深神经网络（深度学习）。

关于深度学习的理论推导，它越来越复杂。一些常见的深度学习算法我很模糊。我已经看过很多次了，分区时间将被遗忘。现在开始，查看特定算法的思想，框架，优势和缺点以及改进方向，并总结CNN和RNN的比较）。

1。历史：多层次的知觉机器到神经网络，然后是深度学习

神经网络技术起源于1950年代和1960年代。当时，它被称为感知机（），并具有输入层，输出层和隐藏层。输入特征向量通过隐式层转换到达输出层，并且在输出层中获得了分类结果。（拉动一个无关的：由于计算技术的向后性，传感器传输函数是通过拉动电阻器用电线更换电阻的方法来机械实现的。

心理学家提出的单个层次感知机的严重问题是不能严重的，也就是说，它没有能力更复杂的功能（例如最典型的“不同”操作）。

这种劣势无法通过1980年代发明的多层感知机发明的多层次感知机来解决。描绘现实世界中的复杂情况。

多层感知机可以摆脱早期离散传输功能的限制。使用或tanh和其他连续功能模拟激励措施的激励措施的响应。在训练算法中，使用了发明反向传输BP算法。这就是我们现在正在谈论的。 BP算法也称为BP神经网络的特定过程。

但是，BP神经网络（多层感知机）面临致命问题（请参见下面的部分）。随着神经网络层数的加深，有两个主要问题：首先，优化功能越来越有可能属于本地最佳解决方案，并且这种“陷阱”越来越偏离真正的全球最佳最佳选择。具有有限数据的深层网络培训不如浅网络。同时，另一个不容忽视的问题是“梯度消失”的现象更为严重。

在2006年，预培训方法缓解了局部最佳解决方案问题，并将隐式层推到了7层。从神经网络的真正意义上讲，神经网络是“深度”。，RNN，LSTM等逐渐出现。

这里的“深度”没有固定的定义 - 语音识别中的第四层网络可以视为“更深”，并且图像识别中20层以上的网络并不少见。

为了克服梯度的消失，Relu和其他传输功能已替换，形成了今天的DNN的基本形式。在结构方面，完整链接的多层感知器机器没有差异。

第二，深神经网络的致命问题

随着神经网络层数的加深，存在三个主要问题：一个是非凸优化的问题，即，优化功能变得越来越有可能属于局部最佳解决方案；其次，（）梯度消失问题；第三，过度拟合问题。

2.1非优化问题

线性回归本质上是对多个函数优化的问题，集合F（x，y）= x+y

多层神经网络，本质上是一个多样化的k-秒函数优化问题，集合f（x，y）= xy

在后排，从任何时候进行搜索，它最终将落到全球最低值。因此，可以设置0（这就是为什么我们经常具有线性回归方程的初始值的原因）。

在从不同点开始的多层神经网络中，它最终可能会捕获局部最小值。局部最小值是神经网络结构带来的挥之不去的阴影。随着隐藏层的增加，非凸目标函数变得越来越复杂，局部最小点增加了一倍。网络不如浅网络好。本质回避方法通常是功率值的初始化。为了统一初始化计划，通常将输入简化为[-1,1]，但仍然无法确保可以实现全局优化。实际上，这也是科学家一直在研究且未解决的问题。

因此，从本质上讲，无法解决由深层结构带来的非概念优化（包括当前的深度学习算法类型和其他非优化问题），这仅限于深层结构的发展。

2.2（）梯度消失问题

这个问题实际上是由不当激活功能引起的。多层使用系统功能将使错误从输出层减弱。从数学上讲，激活函数的作用是将输入数据映射到0到1（tanh映射-1至+1）。至于映射的原因，除了数据正规化之外，数据可能受到控制，因此仅在一定范围内。当然，还有其他细节，例如（tanh），在激活时零（或中心点）之前和之后更关注小变化，并且当数据处于极端状态时忽略数据的变化。例如效果。通常，（tanh）主要用于完整的连接层，而Relu主要用于卷积层。

relu

具体而言，专门使用了“梯度消失”现象，我们经常将输入和输出功能用作神经元。对于范围为1的信号，当BP反向的梯度反向时，每层都会传输，并且梯度衰减为0.25。有多个层，梯子指数基本上没有有效的训练信号。

幸运的是，2006年贪婪的培训权利矩阵层层已经缓解了这个问题，而Relu最近提出的从根本上提出了一种解决方案。

2012年，该小组的Alex将是第一个在CNN中大规模使用新提出的Relu功能的人。

2014年，研究员贾扬（Jia ）使用Relu工件成功将CNN扩展到22个莱默巨型深网。

对于严重困扰的RNN，其变体LSTM也克服了这个问题。

2.3过度拟合问题

这是神经网络的最后一个致命问题：过度拟合，巨大的结构和参数使它成为现实。尽管训练错误下降很低，但测试误差却是高度离谱的。

过度拟合也可以与三十个局部最小值混合。特定的游戏是：

由于较低的深层结构几乎无法训练，因此较高的水平非常容易训练。

由于无法训练较低的级别，因此很容易将原始输入信息放置而没有任何非线性转换，或者将错误的转换推向高级，这使得高级别可以解决特征太大的压力的特征。

如果无法解决功能，则强制性错误监督培训将使模型直接拟合输入数据。

结果，一个好但穷人，这也是SVM和决策树等浅层结构中的问题。

可以指出的是，通过本地数据进行优化的这些浅层结构基于先验知识（先验）：

也就是说，给定的样本（xi，yi），尽可能从值尽可能地优化，以使训练的模型（对于近似x）输出近似y。

但是，一旦产生了输入值，例如两只不同的鸟，鸟类的颜色是不同的，并且图像的比例是不同的，那么SVM和决策树几乎没有用。

由于输入数据只是进行数值学习而不是解决特征，因此对于高维数据（例如图像，声音，文本）是没有意义的。

然后是最后一件事。由于无法学习低级学习，因此高级管理人员处于混乱状态，因此它很快落入了有吸引力的盆地，并完成了三个神经网络的杀戮。

3。深度学习的基本模型

https://img1.baidu.com/it/u=2504861996,2005558802&fm=253&fmt=JPEG&app=138&f=JPEG?w=800&h=1227

深度学习中的基本模型大致分为三类：多层感知的机器模型；深度神经网络模型和递归神经网络模型。它的代表是DBN（深）深度信念网络，CNN（）卷积神经网络和RNN（）递归神经网络。

3.1 dbn（深） - 深度信念网络

2006年，深度信念网络（DBN）及其有效的学习算法（即预先+罚款），并在“”上发布了它，成为后来深度学习算法的主要框架。 DBN是生成模型。通过训练神经元的重量，我们可以允许整个神经网络根据最大概率生成训练数据。因此，我们不仅可以使用DBN识别功能和分类数据，还可以使用它来生成数据。

3.1.1网络结构

In -Depth Faith网络（DBN）被几个有限的（RBM）堆叠在一起，RBM上一层的隐藏层用作RBM下一层的可见层。

（1）RBM

上图显示了普通的RBM网络结构。它是一个双层模型，由M可见层单元和n个隐藏层组成。：在给定的可见层状态下，隐藏层的活动状态是独立的。相反，当给出隐藏层状态时，该层的激活状态条件是独立的。这样可以确保层中神经元之间的调节独立性以及概率分布计算和训练的复杂性。 RBM可以视为未公开的图模型。可以看出，层神经元和隐藏神经元之间的连接重量为两道，而隐藏层与隐藏层的连接重量为W。对于W'。除了上述参数外，RBM的参数还包括可见的层偏差B和隐藏层偏置C。可以根据实际需求更换由RBM和隐藏层单元定义的分布，包括：单位，单位，单位等这些不同单元之间的主要区别是其激活功能

（2）DBN

DBN模型是从几层RBM堆叠的。如果训练浓度中有标签数据，则RBM的最后一层的可见层同时包括上一层RBM的隐藏层单位和标签层单元。假设RBM顶层的可见层中有500个神经元，并且训练数据的分类分为10个类别，那么RBM顶层的可见层具有510个显式神经元。对于每个训练数据，相应的标签神经元将打开并打开。它是1，其他人关闭到0

3.1.2培训过程以及优势和缺点

DBN的培训包括前和罚款的两个步骤。预处理等同于逐层训练每个RBM。在使用前DBN之后，可以用于模拟训练数据。为了进一步提高网络的判断性能，罚款过程使用标签数据通过BP算法修复网络参数。

DBN的优势和缺点的摘要主要集中在生成模型和判断模型的优势和缺点的摘要中。

1。优势：

2。缺点：

- 构建遗传模型不在乎不同类别之间的最佳分类表面的位置，因此，当它用于分类问题时，类别准确性可能不会由

- 由于生成模型学习是数据的组合分布，因此问题的复杂性在某种程度上更高。

- 在所需的输入数据中，可以进行翻译且没有武装。

您可以看到判别模型和生成模型（）

3.1.3改进模型

DBN具有更多的变体。它的改进主要集中在其“零件” RBM的改善上，包括卷积DBN（CDBN）和条件RBM（RBM）。

DBN没有考虑到图像的两个维度结构信息，因为输入只是将图像矩阵转换为一个维矢量。 CDBN使用相邻像素的空域关系，通过称为卷积RBM（CRBM）的模型实现生产模型转换的转换，并且可以轻松地转换为高维图像。

DBN无法清楚地处理观察变量的时间连接。 RBM将可见的层单位变量视为其他条件输入，通过考虑前一刻以模拟序列数据。该变体在语音信号处理领域中具有更多应用。本质

3.2 CNN（）卷积神经网络

卷积神经网络是一种人工神经网络，它已成为语音分析和图像识别领域的研究热点。它的功率共享网络结构使其与生物神经网络更相似，降低了网络模型的复杂性，并减少了权利的数量。当多维图像可以直接将图像用作网络的输入时，此优势的输入更为明显，从而避免了传统识别算法中的复杂特征提取和数据重建过程。

完整链路DNN结构中的下部神经元和所有上神经元可以形成连接，从而带来参数数量的扩展。例如，需要训练1000*1000的像素图像1000*1000，具有10^12个权重。目前，我们可以使用卷积神经网络CNN。对于CNN，并非所有上和下神经元都可以直接连接，而是通过“卷积”作为中介。在所有图像中共享相同的卷积核，并且图像在卷积操作后仍保留原始位置关系。从图像输入层到含义层的参数立即减少至100*100*100 = 10^6

卷积网络是一种多层感知，旨在识别两个维度形状。该网络结构具有高度的不变性，其翻译，比例缩放，倾斜或其他形式的变形。

3.2.1网络结构

卷积神经网络是多层神经网络。它的基本运营单位包括：卷积操作，汇总操作，完整的连接操作和身份证操作。

3.2.2培训过程以及优势和缺点

卷积网络本质上是对输出的映射输入。它可以学习输入和输出之间的大量映射关系，而无需输入和输出之间任何准确的数学表达。该模式通过卷积网络训练，该网络具有输入和输出对之间的映射能力。卷积网络通过监督和训练执行，因此其样本集由向量组成：（输入信号，标签值）向量。

1。优势：

- 重量共享策略减少了需要训练的参数。相同的重量使滤波器可以检测信号的特性而不会受信号位置影响，从而使训练模型的训练模型更强。

- 计算可以减少网络的空间分辨率，从而消除信号的小偏移和失真，从而对输入数据的过渡不高。

2。缺点：

- 最早的深度模型容易出现梯度耗散问题。

3.2.3改进模型

卷积神经网络在各个领域都取得了良好的结果，并且是近年来使用最广泛的深神经网络。最著名的卷积神经网络模型主要包括1986年，2012年，2014年，2014年VGG，2015年深度。这些卷积神经网络改进的版本或模型的深度或模型的组织结构具有一定的差异，但是模型的构建模型是相同的，基本上包含卷积操作，汇总操作，完整连接的操作和认可。手术。

3.3 RNN（）递归神经网络

https://img0.baidu.com/it/u=4219853296,3284396339&fm=253&fmt=JPEG&app=138&f=JPEG?w=760&h=500

除上述问题外，除上述问题外，还有另一个问题 - 时间序列的变化无法建模。但是，样本的时间顺序对于自然语言处理，语音识别和手写识别非常重要。顺便说一句，另一种神经网络结构似乎适应了这种需求 - 循环神经网络RNN（我不知道为什么许多被称为周期。计算机术语通常是相同的水平。因此，本文称他为递归神经网络）。

在普通的完全连接的网络或CNN中，每一层神经元的信号只能扩展到上层。样品的处理始终是独立的，因此它也是神经网络（feed-）的最前沿。在RNN中，神经元的输出可以直接在下一个时间邮票中起作用。

也就是说：（ t+1）网络O（t+1）时网络的最终结果是当时输入和所有历史的共同作用的结果。 RNN可以被视为按时通过的神经网络，其深度是时间长度！正如我们上面所说，“梯度消失”的现象即将出现，但是这次是在时间表上发生的

为了及时解决梯子消失，机器学习领域已经开发了一个长期和短期的记忆单元（LSTM），并且通过门的开关来实现时间的时间内存功能，并且梯度消失了。

3.3.1网络结构

左侧是递归神经网络的原始结构。如果您首先放弃中间的可怕的闭环，则实际上是“输入层=>Layer =>输出层”的三层结构，但是图片中有一个非常奇怪的图片。封闭的循环，也就是说，进入隐藏层后，隐藏的图层也将输入您自己，以便网络具有内存能力。我们说，递归神经网络具有内存能力，这种能力是通过W总结先前的输入状态，并作为对下一个输入的帮助。您可以理解隐藏状态：H = F（现有输入+过去的内存摘要）

3.3.2培训过程以及优势和缺点

由于上一个信号是在递归神经网络中叠加的，因此反向传输与反向传输过程中的传统神经网络不同，因为对于时间t的输入层，其残差不仅来自输出，而且还来自隐藏层。通过反向传输算法，输出层的误差用于求解每个重量的梯度，然后使用梯度下降方法来更新每个重量。

1。优势：

2。缺点：

- 需要训练参数，并且梯度耗散或梯度爆炸的问题很容易发生；

- 它没有特征性的学习能力。

3.3.3改进模型

递归神经网络模型可用于处理序列数据。递归神经网络包含大量参数，很难训练（时间维度的梯度耗散或梯度爆炸），因此RNN的一系列优化，例如网络结构，解决方案和并行化本质

近年来，RNN（BRNN）和LSTM在图像方向取得了突破，

3.4混合结构

除了上述三个网络以及我前面提到的深层剩余学习和LSTM之外，深度学习中还有许多其他结构。例如，由于RNN可以继承历史信息，因此它们可以吸收一些未来的信息吗？因为在序列信号分析中，如果我可以预测未来，则必须有助于识别。因此，有两个路RNN和两个路LSTM，同时使用历史和未来信息。使用历史和将来的信息，两条路RNN和两个路LSTM。

实际上，无论是那种网络，他们经常在实际应用程序中使用它。例如，CNN和RNN通常在上输出之前连接到完整的连接层。很难说网络属于哪个类别。

不难想象，随着深度学习的持续，将开发出更灵活的组合方法和更多的网络结构。尽管似乎改变了，但研究人员的起点必须是解决特定问题。如果您想在这一领域进行研究，则可能希望仔细分析这些结构的特征及其实现的手段。

3.5 CNN和RNN的比较

RNN的重要特征是它可以处理不规则输入并获得一定的输出。当您的输入可能长或短时间（例如训练翻译模型）时，您的句子长度不固定。您不能将CNN用作固定像素的图像。 RNN的循环特征很容易完成。

在串行信号的应用中，CNN仅响应信号的长度（输入矢量的长度），并且学习了RNN的响应长度。

CNN对特征的响应是线性的，RNN是在此渐进方向上的非线性响应。这也带来了很大的不同。

如果CNN明确解决了图像问题，则可以将其视为特征提取层，放置在输入层上，最后用MLP分类。

RNN专门解决时间序列问题，该问题用于提取时间序列信息并在特征提取层（例如CNN）之后放置。

RNN，递归网络，用于序列数据，并具有一定的记忆效应，并补充了LSTM。

CNN应该专注于空间映射，并且图像数据特别适合此场景。

CNN卷积擅长接近局部特征的总体特征，

RNN擅长处理时间序列。

第四，一些基本概念和知识4.1线性回归，线性神经网络，//回归

此参考

或其他信息。

4.2关于卷积，合并，激活功能等。

条目参考：

详细了解有关 Baidu的更多信息

4.3建议一个更好的输入信息

台湾电气事务系电气系的李·洪吉（Li ）教授“有一天了解深度学习”

有人简要翻译了

参考材料：

页: [1]

【华网优展网】's Archiver

澄清深度学习与机器学习关系并系统整理深度学习相关知识