深入理解机器学习与监督式学习:神经网络基础与模型训练详解
目录第1章 什么是损失函数 1.1 什么是机器学习
【人工智能-深度学习-8】:神经网络基础知识-机器学习、深度学习模型、模型训练_文火冰堂(王文冰)的博客-CSDN博客
1.2 什么是监督机器学习?
百度百科:监督学习(英文: )是机器学习中的一种方法,可以从训练数据中学习或建立一种模式(函数/模型),并根据该模式推断新的实例。
训练数据由输入对象(通常是向量)和预期输出组成。
函数的输出可以是连续值(称为回归分析),也可以预测分类标签(称为分类)。
白话:所谓监督学习,给定的数据集和对应的标准答案,也就是标签。未来让机器从数据集的标准答案中学习。
其中,数据集用{Xi}表示,对应的标签值也称为样本值,期望值用{Yi}表示。
神经网络模型利用当前参数对数据集{Xi}进行运算和预测,得到的输出值为{}。
也就是说,监督室的学习是指有标准答案的学习。
标准答案格式:
注:标签值、样本值、期望值并不是没有任何误差的期望值,而是人工采样值,是表面现象下的参考值,内涵上不一定是正规值。
1.3 什么是损失函数?
监督学习本质上是给定一系列训练样本{Xi},试图学习样本的映射关系{Xi -> Yi},使得给定a,即使这不在训练样本{Xi -> Yi}中,它仍然可以获得其输出值 {} 尽可能接近真实的 {} 输出。
损失函数(Loss)是这个过程中的关键组成部分。用于衡量模型的预测输出{}与样本真实值{Yi}之间的差异,并指示模型的优化方向:对于给定的样本{Xi}具有最小的误差,即预测输出 {} 与样本的真实值 {Yi} 尽可能接近和相似。损失值越小,相似度越高,误差越小。
在实际工程中,由于{}是未知的,因此在监督学习中,将样本标签{Yi}作为样本数据集{Xi}的真实值! ! ! !
由于实际样本数据集不是单个数据,因此损失函数实际上是所有样本误差的平均值,它反映了模型对样本数据集中所有样本的预测映射关系{Xi -> },以及与已知的样本标签。 {Xi -> }整体的相似度,而不是个别样本的相似度! ! ! !
在同一应用场景下,描述相似程度的损失数学函数是不同的。
在不同的应用场景下,描述相似程度的损失数学函数是不同的。
因此,损失函数也多种多样,如均方误差损失、平均绝对误差损失、平均误差损失、huber损失、分位数损失loss、交叉熵损失函数Cross Loss、铰链损失Hinge Loss等。
不同损失函数的基本函数表达、原理和特点都不相同。
因此,损失函数研究的是如何表达两个函数之间相似程度的数学表达式(XY的映射关系称为函数)。
因此,损失函数研究的是:如何表达两个函数之间距离的数学表达式(XY的映射关系称为函数)。
1.4 本文重点讨论:
均方误差损失、平均绝对误差损失、平均误差损失和 huber 损失。
这些损失函数主要用于线性拟合或线性回归,而不是逻辑分类。
评论:
本文也表述为
第 2 章 平均误差损失 (MAE) 2.1 概述
描述两个函数之间的距离最容易想到的是:在相同的 Xi 输入下,两个函数的输出 Yi 之差的绝对值。平均绝对误差损失就是基于这种考虑。
2.2 损失函数的数学表达式
其数学函数表达式为:
平均绝对误差损失也称为 L1 损失。
2.3 损失函数的几何和意义
从上图可以看出:
2.4 特点 第 3 章 平均误差损失(MSE) 3.1 概述 3.2 损失函数的数学表达式
均方误差损失也称为 L2 损失。
3.3 损失函数的几何和意义
(1) 单变量模型
(2)多元函数
从上图可以看出:
3.4 特点第4章MSE和MAE的比较
上图将 MAE 和 MSE 损失绘制到同一张图中。
第 5 章 平滑平均绝对误差 Huber 损失 (SMAE) 5.1 概述
MSE损失收敛快但容易受到影响。
MAE 对更稳健,但收敛速度较慢。
Huber Loss 是结合了 MSE 和 MAE 的损失函数,并利用了两者的优点。它也称为平均误差损失 (SMAE)。
它的原理和规则很简单:
当样本Xi的误差小于1或接近0时,使用MSE计算其误差。
当样本Xi的误差大于1或更大时,使用MAE计算其误差。
SMAE的优点和缺点:
优点是:训练后获得较高的模型精度,训练后的模型与目标的相似度较高。
缺点是牺牲了模型训练时间,模型收敛速度比MSE慢,模型训练时间较长。
同一个函数如何能同时表达上述规则呢?
5.2 SMAE损失函数的数学表达——方法1
(1)数学表达式
(2)几何图形及物理意义
(三)主要优缺点
优点:该方法简单明了。
缺点:规则僵化、不可控、不可调整。损失函数的来源只能根据|Yi-|之间的关系来选择和(Yi-)^2,是否是|Yi-|或 (Yi-)^2。
SMAE没有对上述方法进行采样,而是采用了更灵活的解决方案,如下方法2:
5.2 SMAE损失函数的数学表达——方法2
(1)数学表达式
或表示为:
该方法的特点:
(2)几何图形及物理意义
5.3 特点
使用 MSE 训练神经网络的一个大问题是其梯度持续较大,这可能导致在使用梯度下降训练结束时丢失最小值。对于 MSE,当损失接近最小值时,梯度会减小,从而变得更加准确。
Huber 损失在这种情况下非常有用,因为它围绕递减梯度的最小值弯曲。它对异常值的鲁棒性比 MSE 更强。因此,它结合了MSE和MAE的优异性能。然而,Huber损失的问题是我们可能需要训练超参数delta,这是一个迭代过程。
作者主页(文火冰堂硅基工坊):文火冰堂(王文兵)的博客_文火冰堂硅基工坊_CSDN博客
页:
[1]