深度学习学习参考zouxy09博主文章，探究Deep Learning基本思想

hwyzw · 发表于 2025-2-2 04:23:55

参考：

最近，我已经开始学习深度学习。基本上，他们都是博客作者的文章。他们写得很好，非常全面。他们还将根据自己的想法删除和完善它们。

深层的基本思想

假设我们有一个系统s，它具有n层（s1，... sn），其输入为i，输出为o，它以：i => s1 => s2 => ... .. => sn => o，如果输出o等于输入i，也就是说，在此系统更改后输入i后没有信息丢失（嗯，丹尼尔说这是不可能的。信息理论中有一个说法，即“信息是按一层丢失的“（信息处理”（信息处理“不愿意的），设置处理A信息以获取B，然后处理C以获取C，然后可以证明A和C的共同信息不会超过A和B的互信息丢失的信息当然是，如果您丢失了，则没有用。信息（即输入i）现在返回我们的主题，我们需要自动学习特征。它的输出仍然是输入i，因此我们可以自动获得输入i的一系列分层特征，即S1，...，SN。

对于深度学习，它的思想是堆叠多层，这意味着该层的输出用作下一层输入。这样，可以将输入信息分级。

另外，先前的是输出严格等于输入。这个限制太严格了。我们可以稍微放松这个限制。例如，我们只需要使输入和输出之间的差异尽可能小。这种放松将导致另一种不同类型的深处。方法。以上是深层的基本思想。

浅学习（）和深度学习（深度）

浅学习是机器学习的第一波。

在1980年代后期，用于人工神经网络的反向通信算法的发明（也称为后算法或BP算法）为机器学习带来了希望，并基于统计模型引发了狂热。这个繁荣一直持续到今天。发现使用BP算法可以允许人工神经网络模型从大量训练样本中学习统计定律，从而预测未知事件。与基于人造规则的过去系统相比，这种基于统计的机器学习方法在许多方面都表现出了优越性。目前，尽管人工神经网络也称为多层，但实际上它是一个仅包含一个隐藏层节点的浅模型。

在1990年代，提出了各种浅机器学习模型，例如支持向量机（SVM，），最大熵方法（例如LR，）。这些模型的结构基本上可以看作是隐藏层节点（例如SVM，）或没有隐藏层节点（例如LR）。这些模型在理论分析和应用中都取得了巨大的成功。相比之下，由于理论分析的困难，培训方法需要大量的经验和技能。在此期间，浅的人工神经网络相对沉默。

深度学习是机器学习的第二波。

2006年，加拿大多伦多大学教授和机器学习领域及其学生发表了一篇文章，该文章在学术和工业界开辟了一波深度学习。本文有两个要点：1）人工神经网络的多层密封性层具有出色的特征学习能力，并且通过学习获得的特征具有更重要的数据刻画，这有利于可视化或分类；训练难以通过“层次前”有效地克服。在本文中，初始化层次是通过无监督的学习来实现的。

目前，大多数学习方法（例如分类和回归）是浅层结构算法。这些局限性仅限于有限的样本和计算单元，并且具有有限的指数能力，可以进行复杂功能，并且其对复杂分类问题的概括能力受到限制。深度学习可以学习深度非线性网络结构，实现复杂的功能近似，表征输入数据分布式表示形式，并显示强大样本集中数据集的基本特征的能力。（多层次的优点是可以使用较少的参数来表示复杂的功能）

深度学习的本质是通过构建许多隐藏的机器学习模型和大量培训数据来学习更多有用的功能，从而最终提高了分类或预测的准确性。因此，“深层模型”是一种手段，“特征学习”是目的。与传统的浅层学习不同，深度学习之间的差异是：1）强调模型结构的深度，通常是5、6，甚至超过10层隐藏的层节点； 2）清楚地强调了特征学习的重要性，换句话说，通过更改特征层，样本在原始空间中的特征被转变为新的特征空间，从而更容易进行分类或预测。与人工规则的特征相比，使用大数据来学习特征，它还可以描绘数据的丰富内部信息。

深处

深度学习是机器学习研究的新领域。动机是建立和模拟人脑以分析和学习神经网络。它模仿了人脑的机制来解释数据，例如图像，声音和文本。

深度学习的概念来自人工神经网络的研究。包含多个隐藏层的多层感知是一种深度学习结构。深度学习通过低级别特征的组合形成了更抽象的高级别代表性类别或特征，这是通过发现数据的分布特征来表示的。

深处是一个分支，这是可以理解的。大约两三十年前，它曾经是ML领域特别热门的方向，但随后它确实逐渐消失，包括以下方面：

1）更容易过度合适，参数更加困难，并且需要很多技巧；

2）训练速度相对较慢，并且当水平较小（小于或等于3）时，效果不比其他方法好；

因此，中间大约有20年，而神经网络几乎没有引起关注。这个时期基本上是SVM和算法的世界。但是，他坚持不懈地痴迷于老绅士，并最终吸引了一个实用且可行的深层框架（与其他人一起，Yann.lecun等）。

深层和传统神经网络之间存在许多差异。

同样的是，深层使用神经网络的分层结构。该系统由由输入层，隐藏层（多层）和输出层组成的多层网络组成。跨层节点之间没有连接，并且每一层都可以视为模型。这种分层结构更接近人脑的结构。

为了克服神经网络培训中的问题，DL使用了与神经网络的截然不同的训练机制。传统的神经网络（作者在这里主要指的是正面 - 神经网络），该网络是由背面执行的。简而言之，它使用迭代算法来训练整个网络，随机设置初始值，计算当前网络输出，然后使用当前网络输出，然后基于当前网络的输出。当前输出和标签之间的差异会更改上层的参数，直到收敛为止（总体是梯度下降方法）。深度是整个层面训练机制。原因是因为如果采用了后背机制，则对于深（超过7层），将残留的延伸到前层变得太小，并且出现了SO被称为（梯度扩散）。我们将讨论这个问题。

8。深训练过程

8.1。为什么不能在深度神经网络中使用传统神经网络的训练方法

作为传统培训多层网络的典型算法，对于仅几层网络的培训方法，BP算法实际上是非常不满意的。深层结构（涉及多个非线性处理单元层）非凸目标成本函数中的局部最小值是训练困难的主要来源。

BP算法的问题：

（1）梯度越来越薄：从顶层越来越多，校正信号越来越小；

（2）收敛到局部最低值：尤其是当它从最佳区域远离开始时（随机值的初始化将导致这种情况）；

（3）通常，我们只能使用标签数据进行训练：但是大多数数据没有标记，并且大脑可以从没有标签数据中学习；

8.2。深入训练过程

如果所有层都经过同时训练，那么时间的复杂性将太高；如果每一层都是训练的，则偏差将逐层通过。这将面临上述监督学习的对立面，这将是认真的欠款（因为深层网络的神经元和参数太多）。

在2006年，提出了在非数据上建立多层神经网络的有效方法。简而言之，它分为两个步骤。一种是每次训练一层网络。高级表明R和R尽可能多地产生X'的高级代表。该方法是：

1）首先按一层构建单个层神经元，以便每次都会训练单层网络。

2）训练所有层后，使用唤醒算法进行调整。

顶层另一层的重量变成了两个路，因此顶层仍然是一个单个层神经网络，而其他图层则成为图形模型。向上的重量用于“认知”，并且向下重量用于“生成”。然后使用唤醒式算法调节所有重量。同意让认知和生成，也就是说，生成生成的顶层表明可以将可以恢复到底层的节点可以尽可能正确地恢复。例如，顶层上的节点指示面部，然后每个人的脸的图像应激活此节点，并且该结果产生的图像应能够显示一般的面部图像。唤醒级别的算法分为两个部分：唤醒和睡眠。

1）唤醒阶段：通过外界的特征和向上的重量（认知重量）生成每一层抽象表示（节点状态），并使用梯度减轻下行链路重量（产生重量（产生重量）））在修改层之间。也就是说，“如果现实与我想象的不同，改变体重会使我想象的事情。”

2）睡眠阶段：通过顶层表示（在醒来时学到的概念）生成过程，并且向下重量产生了基本状态，并同时修改层的向上重量。也就是说，“如果梦想中的场景不是我脑海中的相应概念，那么我认为我的认知权重就会使这个场景成为现场。”

深训练过程如下：

1）从非学习的自下而上（即，从底部开始，一层训练一层到顶层）：

采用非校准数据（也可以提供校准数据）分层训练参数。可以将此步骤视为一个无过程培训过程，是传统神经网络的最大部分（可以将其视为该过程）：

具体而言，首先使用没有校准数据的第一层数据，并在训练时首先了解第一层的参数（可以将其视为隐藏层，以获取最小的神经网络，以使输出并输入最小的输出），因为模型是由于模型造成的，因为模型限制和稀疏约束使获得的模型能够学习数据本身的结构，从而获得比输入更多的代表性特征。在学习N-1层后，将N-1层的输出用作NN NN层作为NNNN层作为NNN层作为NNN层，为NNN层，作为NNN层，作为NNN层作为NN NN层NN N.层的输入，NN层的训练以及每个层的参数；

2）从顶部进行监督和学习（即用标签训练数据，从顶部传输错误，并且网络符合良好的态度）：

基于第一步获得的第一步，整个多层模型的整个多层模型的参数是监督和培训的过程。与神经网络的随机初始化过程相似的第一步。因为DL的第一步不是通过学习输入数据的结构来获得随机的随机初始化。因此，此初始值更接近全球最佳，以取得更好的结果。因此，深层效果在很大程度上是由于第一步。

深度学习学习参考zouxy09博主文章，探究Deep Learning基本思想

更多帖子推荐