深入理解机器学习与监督式学习：神经网络基础与模型训练详解

hwyzw · 发表于 2024-12-16 09:45:30

目录

第1章什么是损失函数 1.1 什么是机器学习

【人工智能-深度学习-8】：神经网络基础知识-机器学习、深度学习模型、模型训练_文火冰堂（王文冰）的博客-CSDN博客

1.2 什么是监督机器学习？

百度百科：监督学习（英文：）是机器学习中的一种方法，可以从训练数据中学习或建立一种模式（函数/模型），并根据该模式推断新的实例。

训练数据由输入对象（通常是向量）和预期输出组成。

函数的输出可以是连续值（称为回归分析），也可以预测分类标签（称为分类）。

白话：所谓监督学习，给定的数据集和对应的标准答案，也就是标签。未来让机器从数据集的标准答案中学习。

其中，数据集用{Xi}表示，对应的标签值也称为样本值，期望值用{Yi}表示。

神经网络模型利用当前参数对数据集{Xi}进行运算和预测，得到的输出值为{}。

也就是说，监督室的学习是指有标准答案的学习。

标准答案格式：

注：标签值、样本值、期望值并不是没有任何误差的期望值，而是人工采样值，是表面现象下的参考值，内涵上不一定是正规值。

1.3 什么是损失函数？

监督学习本质上是给定一系列训练样本{Xi}，试图学习样本的映射关系{Xi -> Yi}，使得给定a，即使这不在训练样本{Xi -> Yi}中，它仍然可以获得其输出值 {} 尽可能接近真实的 {} 输出。

损失函数（Loss）是这个过程中的关键组成部分。用于衡量模型的预测输出{}与样本真实值{Yi}之间的差异，并指示模型的优化方向：对于给定的样本{Xi}具有最小的误差，即预测输出 {} 与样本的真实值 {Yi} 尽可能接近和相似。损失值越小，相似度越高，误差越小。

在实际工程中，由于{}是未知的，因此在监督学习中，将样本标签{Yi}作为样本数据集{Xi}的真实值！！！！

由于实际样本数据集不是单个数据，因此损失函数实际上是所有样本误差的平均值，它反映了模型对样本数据集中所有样本的预测映射关系{Xi -> }，以及与已知的样本标签。 {Xi -> }整体的相似度，而不是个别样本的相似度！！！！

在同一应用场景下，描述相似程度的损失数学函数是不同的。

在不同的应用场景下，描述相似程度的损失数学函数是不同的。

因此，损失函数也多种多样，如均方误差损失、平均绝对误差损失、平均误差损失、huber损失、分位数损失loss、交叉熵损失函数Cross Loss、铰链损失Hinge Loss等。

不同损失函数的基本函数表达、原理和特点都不相同。

因此，损失函数研究的是如何表达两个函数之间相似程度的数学表达式（XY的映射关系称为函数）。

因此，损失函数研究的是：如何表达两个函数之间距离的数学表达式（XY的映射关系称为函数）。

1.4 本文重点讨论：

均方误差损失、平均绝对误差损失、平均误差损失和 huber 损失。

这些损失函数主要用于线性拟合或线性回归，而不是逻辑分类。

评论：

本文也表述为

第 2 章平均误差损失 (MAE) 2.1 概述

描述两个函数之间的距离最容易想到的是：在相同的 Xi 输入下，两个函数的输出 Yi 之差的绝对值。平均绝对误差损失就是基于这种考虑。

2.2 损失函数的数学表达式

其数学函数表达式为：

平均绝对误差损失也称为 L1 损失。

2.3 损失函数的几何和意义

从上图可以看出：

2.4 特点第 3 章平均误差损失（MSE） 3.1 概述 3.2 损失函数的数学表达式

均方误差损失也称为 L2 损失。

3.3 损失函数的几何和意义

(1) 单变量模型

(2)多元函数

从上图可以看出：

3.4 特点第4章MSE和MAE的比较

上图将 MAE 和 MSE 损失绘制到同一张图中。

第 5 章平滑平均绝对误差 Huber 损失 (SMAE) 5.1 概述

MSE损失收敛快但容易受到影响。

MAE 对更稳健，但收敛速度较慢。

Huber Loss 是结合了 MSE 和 MAE 的损失函数，并利用了两者的优点。它也称为平均误差损失 (SMAE)。

它的原理和规则很简单：

当样本Xi的误差小于1或接近0时，使用MSE计算其误差。

当样本Xi的误差大于1或更大时，使用MAE计算其误差。

SMAE的优点和缺点：

优点是：训练后获得较高的模型精度，训练后的模型与目标的相似度较高。

缺点是牺牲了模型训练时间，模型收敛速度比MSE慢，模型训练时间较长。

同一个函数如何能同时表达上述规则呢？

5.2 SMAE损失函数的数学表达——方法1

(1)数学表达式

(2)几何图形及物理意义

（三）主要优缺点

优点：该方法简单明了。

缺点：规则僵化、不可控、不可调整。损失函数的来源只能根据|Yi-|之间的关系来选择和(Yi-)^2，是否是|Yi-|或 (Yi-)^2。

SMAE没有对上述方法进行采样，而是采用了更灵活的解决方案，如下方法2：

5.2 SMAE损失函数的数学表达——方法2

(1)数学表达式

或表示为：

该方法的特点：

(2)几何图形及物理意义

5.3 特点

使用 MSE 训练神经网络的一个大问题是其梯度持续较大，这可能导致在使用梯度下降训练结束时丢失最小值。对于 MSE，当损失接近最小值时，梯度会减小，从而变得更加准确。

Huber 损失在这种情况下非常有用，因为它围绕递减梯度的最小值弯曲。它对异常值的鲁棒性比 MSE 更强。因此，它结合了MSE和MAE的优异性能。然而，Huber损失的问题是我们可能需要训练超参数delta，这是一个迭代过程。

作者主页（文火冰堂硅基工坊）：文火冰堂（王文兵）的博客_文火冰堂硅基工坊_CSDN博客