官方服务微信:dat818 购买与出租对接

深入理解机器学习与监督式学习:神经网络基础与模型训练详解

7117

主题

2

回帖

2万

积分

管理员

积分
21499
发表于 4 天前 | 显示全部楼层 |阅读模式
    目录

    第1章 什么是损失函数 1.1 什么是机器学习

    【人工智能-深度学习-8】:神经网络基础知识-机器学习、深度学习模型、模型训练_文火冰堂(王文冰)的博客-CSDN博客

    1.2 什么是监督机器学习?

    百度百科:监督学习(英文: )是机器学习中的一种方法,可以从训练数据中学习或建立一种模式(函数/模型),并根据该模式推断新的实例。

    训练数据由输入对象(通常是向量)和预期输出组成。

    函数的输出可以是连续值(称为回归分析),也可以预测分类标签(称为分类)。

    白话:所谓监督学习,给定的数据集和对应的标准答案,也就是标签。未来让机器从数据集的标准答案中学习。

    其中,数据集用{Xi}表示,对应的标签值也称为样本值,期望值用{Yi}表示。

    神经网络模型利用当前参数对数据集{Xi}进行运算和预测,得到的输出值为{}。

    也就是说,监督室的学习是指有标准答案的学习。

    标准答案格式:

    注:标签值、样本值、期望值并不是没有任何误差的期望值,而是人工采样值,是表面现象下的参考值,内涵上不一定是正规值。

    1.3 什么是损失函数?

    监督学习本质上是给定一系列训练样本{Xi},试图学习样本的映射关系{Xi -> Yi},使得给定a,即使这不在训练样本{Xi -> Yi}中,它仍然可以获得其输出值 {} 尽可能接近真实的 {} 输出。

    损失函数(Loss)是这个过程中的关键组成部分。用于衡量模型的预测输出{}与样本真实值{Yi}之间的差异,并指示模型的优化方向:对于给定的样本{Xi}具有最小的误差,即预测输出 {} 与样本的真实值 {Yi} 尽可能接近和相似。损失值越小,相似度越高,误差越小。

    在实际工程中,由于{}是未知的,因此在监督学习中,将样本标签{Yi}作为样本数据集{Xi}的真实值! ! ! !

    由于实际样本数据集不是单个数据,因此损失函数实际上是所有样本误差的平均值,它反映了模型对样本数据集中所有样本的预测映射关系{Xi -> },以及与已知的样本标签。 {Xi -> }整体的相似度,而不是个别样本的相似度! ! ! !

    在同一应用场景下,描述相似程度的损失数学函数是不同的。

    在不同的应用场景下,描述相似程度的损失数学函数是不同的。

    因此,损失函数也多种多样,如均方误差损失、平均绝对误差损失、平均误差损失、huber损失、分位数损失loss、交叉熵损失函数Cross Loss、铰链损失Hinge Loss等。

    不同损失函数的基本函数表达、原理和特点都不相同。

    因此,损失函数研究的是如何表达两个函数之间相似程度的数学表达式(XY的映射关系称为函数)。

    因此,损失函数研究的是:如何表达两个函数之间距离的数学表达式(XY的映射关系称为函数)。

    1.4 本文重点讨论:

    均方误差损失、平均绝对误差损失、平均误差损失和 huber 损失。

    这些损失函数主要用于线性拟合或线性回归,而不是逻辑分类。

    评论:

    本文也表述为

    第 2 章 平均误差损失 (MAE) 2.1 概述

    描述两个函数之间的距离最容易想到的是:在相同的 Xi 输入下,两个函数的输出 Yi 之差的绝对值。平均绝对误差损失就是基于这种考虑。

    2.2 损失函数的数学表达式

    其数学函数表达式为:

    平均绝对误差损失也称为 L1 损失。

    2.3 损失函数的几何和意义

    从上图可以看出:

    2.4 特点 第 3 章 平均误差损失(MSE) 3.1 概述 3.2 损失函数的数学表达式

    均方误差损失也称为 L2 损失。

    3.3 损失函数的几何和意义

    (1) 单变量模型

    (2)多元函数

    从上图可以看出:

    3.4 特点第4章MSE和MAE的比较

    上图将 MAE 和 MSE 损失绘制到同一张图中。

    第 5 章 平滑平均绝对误差 Huber 损失 (SMAE) 5.1 概述

    MSE损失收敛快但容易受到影响。

    MAE 对更稳健,但收敛速度较慢。

    Huber Loss 是结合了 MSE 和 MAE 的损失函数,并利用了两者的优点。它也称为平均误差损失 (SMAE)。

    它的原理和规则很简单:

    当样本Xi的误差小于1或接近0时,使用MSE计算其误差。

    当样本Xi的误差大于1或更大时,使用MAE计算其误差。

    SMAE的优点和缺点:

    优点是:训练后获得较高的模型精度,训练后的模型与目标的相似度较高。

    缺点是牺牲了模型训练时间,模型收敛速度比MSE慢,模型训练时间较长。

    同一个函数如何能同时表达上述规则呢?

    5.2 SMAE损失函数的数学表达——方法1

    (1)数学表达式

    (2)几何图形及物理意义

    (三)主要优缺点

    优点:该方法简单明了。

    缺点:规则僵化、不可控、不可调整。损失函数的来源只能根据|Yi-|之间的关系来选择和(Yi-)^2,是否是|Yi-|或 (Yi-)^2。

    SMAE没有对上述方法进行采样,而是采用了更灵活的解决方案,如下方法2:

    5.2 SMAE损失函数的数学表达——方法2

    (1)数学表达式

    或表示为:

    该方法的特点:

    (2)几何图形及物理意义

    5.3 特点

    使用 MSE 训练神经网络的一个大问题是其梯度持续较大,这可能导致在使用梯度下降训练结束时丢失最小值。对于 MSE,当损失接近最小值时,梯度会减小,从而变得更加准确。

    Huber 损失在这种情况下非常有用,因为它围绕递减梯度的最小值弯曲。它对异常值的鲁棒性比 MSE 更强。因此,它结合了MSE和MAE的优异性能。然而,Huber损失的问题是我们可能需要训练超参数delta,这是一个迭代过程。

    作者主页(文火冰堂硅基工坊):文火冰堂(王文兵)的博客_文火冰堂硅基工坊_CSDN博客
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2024, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2024-12-20 16:58 , Processed in 0.074943 second(s), 17 queries .