如何使用RMSE和可视化方法评估模型预测效果及验证集预测步骤详解

hwyzw 发表于 2025-2-6 15:26:43

下一步是为验证集创建一个预测，并使用实际值检查RMSE。

做出预测

preds = []

对于我的范围（0,248）：

a = train'close'.sum（） + sum（preds）

B = A/248

preds。（b）

结果计算RMSE

rms = np.sqrt（np.mean（np.power（（（np.Array）（有效['close']） -preds），2））））））））））））））

RMS

104.548

仅检查RMSE并不能帮助我们了解模型的执行方式。让我们将其可视化以获得更直观的理解。因此，这是预测值与实际值的图。

绘制图片

有效[''] = 0

有效[''] = preds

plt.plot（train ['close']）

plt.plot（有效[['close'，'']]）

推理

RMSE值接近105，但是结果不是很有希望（从图可以看出）。预测值的范围与验证集中的观测值相同（最初有增加趋势，然后慢慢降低）。

在下一节中，我们将介绍两种常用的机器学习技术 - 线性回归和KNN，并了解它们在我们的股票市场数据上的表现。

2。线性回归简介

可以在此数据上实现的最基本的机器学习算法是线性回归。线性回归模型返回一个方程式，该方程式决定了独立变量和因变量之间的关系。

线性回归的方程式可以写为：

在这里，x1，x2，....xň表示自变量，而系数θ1，θ2，...θñ代表权重。

对于我们的问题描述，我们没有一组自变量。我们只有日期。让我们使用日期列来提取诸如 - 日，月，年，星期一/星期五之类的功能，然后适合线性回归模型。

代码

我们将首先按升序排序数据集，然后创建一个单独的数据集，以便创建的任何新功能都不会影响原始数据。

将索引设置为日期值

df ['date'] = pd。（df.date，='％y-％m-％d'）

df.index = df ['date']

种类

data = df。（= true，axis = 0）

创建一个单独的数据集

= pd。（index = range（0，len（df）），= ['date'，'close']）

对于I范围（0，LEN（数据））：

'date'= data'date'

'关闭'= data'close'

创建功能

从。

（， '日期'）

.drop（''，轴= 1，= true）＃将是时间戳

这创建了以下特征：

'年'，'月，“''，'day'，''，''，''，''，''，''，''，'，'，'，'，'，'，'，'，'，'，'，'，'，'，' '， ''，和 ''。

注意：我使用了库。如果您没有安装它，只需使用命令PIP即可。另外，您可以使用简单的循环创建此功能。我在下面显示了一个示例。

除此之外，我们还可以添加自己认为与预测有关的特征。例如，我的假设是，一周的第一天和最后几天可能会影响股票的收盘价，而远远超过了其他日子。因此，我创建了一项功能，该功能确定某个一天是星期一/星期五还是星期二/星期三/星期四。可以使用以下代码行完成：

[''] = 0

对于I范围（0，len（））：

if（''== 0或''== 4）：

''= 1

别的：

''= 0

如果一周中的一天等于0或4，则列值为1，否则为0。类似地，您可以创建多个功能。如果您对可以有助于预测股票价格的功能有一些想法，请在评论部分中分享它们。

现在，我们将数据分为培训和验证集以检查模型的性能。

分为训练集和验证集

火车= [：987]

有效=

= Train.Drop（'Close'，Axis = 1）

=火车['关闭']

=有效。drop（'Close'，Axis = 1）

=有效['close']

实现线性回归

从。

模型=（）

model.fit（，）

对结果进行预测并找到RMSE

preds =模型。（）

rms = np.sqrt（np.mean（np.power（（（np.Array（）-np.Array（preds）），2）））））））））））））））））

RMS

121.156

RMSE值高于先前的技术，该技术清楚地表明线性回归的性能差。让我们看一下图表，了解为什么线性回归做得不好：

绘制图片

有效[''] = 0

有效[''] = preds

有效index = 。索引

train.index = [：987] .index

plt.plot（train ['close']）

plt.plot（有效[['close'，'']]）

推理

线性回归是一种简单的技术，很容易解释，但是有一些明显的缺点。使用回归算法的一个问题是该模型与日期和月列相匹配。该模型没有从一个月前的同一日期或一年前同一日期/月来考虑以前的值，而是从预测的角度考虑以前的值。

从上图可以看出，股价在2016年1月和2017年1月下降。该模型预测了2018年1月的情况。线性回归技术可以很好地解决诸如大型超市之类的销售问题，其中独立功能对确定目标值。

3. K-邻居简介

https://img1.baidu.com/it/u=526526130,67928123&fm=253&fmt=JPEG&app=138&f=JPEG?w=566&h=500

这里可以使用的另一种有趣的ML算法是KNN（K最近的邻居）。 KNN发现基于自变量的新数据点和旧数据点之间的相似性。让我用一个简单的例子来解释它。

考虑11人的身高和年龄。根据给定特征（“年龄”和“高度”），该表可以以图形格式表示：如下：

为了确定ID＃11的重量，K-NN考虑了该ID最近邻居的重量。 ID＃11的重量预计将是其邻居的平均值。如果我们现在考虑三个邻居（k = 3），ID＃11的重量将为=（77 + 72 + 60）/3 = 69.66 kg。

代码导入库

从

从。

从。

=（=（0，1））

使用上一节中相同的培训和验证集：

比例数据

=。（）

= pd。（）

=。（）

= pd。（）

使用使用的最佳参数

= {''：}

knn =。（）

型号=（knn，，cv = 5）

适合模型并进行预测

model.fit（，）

preds =模型。（）

结果查看RMSE值

rms = np.sqrt（np.mean（np.power（（（np.Array（）-np.Array（preds）），2）））））））））））））））））

RMS

115.721

RMSE值没有太大差异，但是预测和实际值的图应提供更清晰的理解。

绘制图片

有效[''] = 0

有效[''] = preds

plt.plot（有效[['close'，'']]）

plt.plot（train ['close']）

推理

RMSE值几乎与线性回归模型相似，并且图显示了相同的模式。像线性回归一样，KNN也确定了2018年1月的下降，因为这是过去几年的形式。我们可以肯定地说，回归算法在此数据集上的性能差。

让我们继续研究某些时间序列预测技术，以了解它们在面对股价预测挑战时的表现。

4。汽车介绍

Arima是一种非常流行的时间序列预测统计方法。 Arima模型考虑了过去的值以预测未来的价值。 Arima有三个重要参数：

Arima参数调整可能需要大量时间。因此，我们将使用Auto Arima，该Auto Arima会自动选择（P，Q，D）来提供最小错误的最佳组合。

代码

来自.arima

data = df。（= true，axis = 0）

火车=数据[：987]

有效=数据

=火车['关闭']

=有效['close']

model =（，，= 1，= 1，max_p = 3，max_q = 3，m = 12，= 0，= true，d = 1，d = 1，trace = true，='''，= true）

model.fit（）

=模型。（= 248）

= pd。（，index =有效index，= [''']）

结果

rms = np.sqrt（np.mean（np.power（（np.Array）（有效['close']） -np.array（[''']），2）））））））））））））））））））））

RMS

44。

绘制图片

plt.plot（train ['close']）

plt.plot（有效['close']）

plt.plot（预测['预测']）

推理

如前所述，自动Arima模型使用过去的数据来了解时间序列中的模式。使用这些值，该模型获得了该系列的增长趋势。尽管使用此技术的预测比以前实现的机器学习模型的预测要好得多，但这些预测仍然不接近实际值。

从该图可以看出，该模型在该系列中捕获了趋势，但并未集中在季节性部分上。在下一节中，我们将实施一个时间序列模型，以考虑该系列的趋势和季节性。

5。简介

可以在库存预测数据集上实现许多时间序列技术，但是在拟合模型之前，大多数这些技术都需要大量的数据预处理。设计和开创性的是一个时间序列预测库，不需要数据预处理，并且非常易于实现。输入是一个具有两个列的数据框架：日期和（DS和Y）。

试图在过去的数据中获得季节性，并在数据集很大时做得很好。

代码导入

从

创造

= pd。（index = range（0，len（df）），= ['date'，'close']）

对于I范围（0，LEN（数据））：

'date'= data'date'

'关闭'= data'close'

['date'] = pd。（。日期，='％y-％m-％d'）

.index = ['date']

准备数据

。

培训和验证

火车= [：987]

有效=

使用正确的型号

模型=（）

型号（火车）

预测

= model.e（= len（））

=型号。（）

结果查看RMSE

='yhat'

https://img1.baidu.com/it/u=2591269327,2290556798&fm=253&fmt=JPEG&app=138&f=JPEG?w=690&h=500

rms = np.sqrt（np.mean（np.power（（（np.Array））（有效['y']） -np.Array（）），2）））））））））））））

RMS

57。

绘制图片

有效[''] = 0

有效[''] =。

plt.plot（train ['y']）

plt.plot（有效[['y'，'']]）

推理

（与大多数时间序列预测技术相同）尝试从过去的数据中获得趋势和季节性。该模型通常在时间序列数据集上表现良好，但在这种情况下无法实现其声誉。

事实证明，股价没有具体的趋势或季节性。这在很大程度上取决于当前市场状况，因此价格将上涨。因此，诸如Arima之类的预测技术不会为此特定问题显示出良好的结果。

让我们继续尝试另一种先进的技术 - 长期和短期内存（LSTM）。

6。长期和短期记忆简介（LSTM）

LSTM广泛用于序列预测问题，已被证明非常有效。他们之所以非常有效的原因是，LSTM能够存储过去的重要信息，而忘记了不重要的信息。 LSTM有三扇门：

现在，让我们将LSTM作为黑匣子实现，并在我们的特定数据上检查其性能。

代码导入所需的库

从。

来自Keras。

来自Keras。密集，LSTM

创造

data = df。（= true，axis = 0）

= pd。（index = range（0，len（df）），= ['date'，'close']）

对于I范围（0，LEN（数据））：

'date'= data'date'

'关闭'= data'close'

设置索引

.index = .date

.drop（'date'，轴= 1，= true）

创建培训和测试集

=。

火车=

有效=

将数据集转换为X和Y列

=（=（0，1））

=。（）

，= []，[]

对于我的范围（60，Len（火车））：

。（）

。（）

，= np.Array（），np.Array（）

= np。（（。

创建和使用LSTM网络

模型=（）

model.Add（lstm（单位= 50，= true，=（。shape ，1）））））

ADD（LSTM（单位= 50））

型号（密集（1））

桩（损失=''，='adam'）

model.fit（，，，= 1，= 1，= 2）

使用训练集中的过去60个值预测246个值

= 。

=。（-1,1）

=。（）

= []

对于我的范围（60，.shape ）：

。（）

= np.array（）

= np。（，（。形状，。shape ，1））

=型号。（）

=。（）

结果

rms = np.sqrt（np.mean（np.power（（录用 - ），2），2））））））

RMS

11.，

绘制图片

火车= [：987]

有效=

有效[''] =

plt.plot（train ['Close']）

plt.plot（有效[['close'，'']]）

推理

LSTM模型可以根据不同的参数进行调整，例如更改LSTM层的数量，添加值或增加时期的数量。但是，LSTM的预测是否足以确定股票价格是在上涨还是下跌？当然不是！

正如我在本文开头提到的那样，股票价格受到有关公司的新闻以及其他因素（例如货币化或公司的合并/拆分）的影响。还有一些无形的因素通常是不可预测的。

结局笔记

时间序列预测是一个非常有趣的领域，正如我在撰写这些文章时意识到的那样。社区中有一种看法，这是一个非常复杂的领域。尽管有些确实更为复杂，但是一旦您掌握了基本技术，它将不那么困难。

本文的作者使用六种方法来预测股票价格波动，并分析了结果模型中每种算法的优点和缺点。从数字可以看出，LSTM方法是最合适的。一种方法，但是股票市场需要考虑许多因素。不仅需要预测一些关键功能。我们可以根据先前数据验证算法，但使用该算法来预测未来的库存上升。损失下降时仍然存在一些风险，因此您仍然应该谨慎使用这些算法。至少没有算法可以预测未来股票的时间序列模型算法100％。最好暂时使用该算法来连续训练，直到未来的技术有一天成熟。

使用和深（用代码）进行库存

页: [1]

【华网优展网】's Archiver

如何使用RMSE和可视化方法评估模型预测效果及验证集预测步骤详解