第一项任务

对于第一个作业,我将让你对线性函数中的代码做一些修改。ipynb笔记本。您将对我构建的模型进行一些更改:您应该将更新后的模型的工作放在一个新笔记本中。您可以复制粘贴线性的相关部分。将ipynb导入到新笔记本中,然后进行如下修改。

改变温度特性

当前模式的一个方面需要调整。当前模型的一个输入特征是骑行时的温度。这对骑行的平均速度有影响,因为我在天气凉爽时走得更慢,而在天气变暖时走得更快。事实上,如果你仔细观察我们开发的线性回归模型的细节,你会发现随着温度的升高,模型会产生更高的平均速度。

温度和速度之间关系的一个不太正确的方面是,更高的温度总是产生更高的速度。实际上,随着温度的升高,我往往会跑得更快,但一旦达到68度左右的“理想”温度,温度越高,速度反而越慢。这是有道理的,因为一旦温度达到80华氏度,过热就会成为一个问题,我必须放慢速度来补偿。

原来的模型会预测,在85度的温度下,我的速度会比在65度的温度下快。由于情况显然不是这样,我们需要修正我们的模型。

为了修正模型,将原始的温度输入特征替换为测量与理想温度偏差的特征。将温度特征替换为原温度与68度之差的绝对值。证明这样做在模型中产生的均方根误差比我们在原始模型中发现的要低。

分层抽样

在原始模型中,我使用了两种技术来估计模型的均方根误差。第一个是简单的80/20训练/测试分割。第二个是五倍交叉验证技术。

比简单的80/20训练/测试分割更好的方法是使用分层抽样。阅读本文第二章“创建测试集”部分的分层抽样。通过选择一个测试集作为按温度分层的原始数据集的20%样本,使用该技术构建80/20训练/测试分割。这个分层样本的均方根误差比简单的80/20随机训练/测试分割的均方根误差更接近交叉验证的平均均方根误差吗?