上一篇文章提到了解决模型过拟合问题(模型含有较大的方差)有一种标准的处理手段,就是所谓的模型正则化(Regularization)。模型正则化的作用就是当模型过拟合后,通过限制模型参数的大小来缓解过拟合带来的问题。本文以多项式回归为例,着重讨论模型正则化的一种常用方法——岭回归(Ridge Regression)。 阅读全文
分类: 机器学习
机器学习算法笔记(十九):偏差方差权衡
在第十七篇笔记中,我们提到在机器学习模型训练的过程中,会遭遇过拟合或者欠拟合的问题,这些问题都会使训练出来的机器学习模型在真实的预测过程中产生各种误差或者错误。下面我们在更高的视角下来看一下在训练机器学习模型时出现的误差该如何进行分类。 阅读全文
机器学习算法笔记(十八):验证数据集与交叉验证
如果我们在训练模型时把所有的样本数据都当做训练数据的话,这样的模型如果发生了过拟合我们并不自知:因为在这种情况下在训练数据集上的误差会非常小,让我们觉得训练出来的模型很好但很有可能泛化能力不足而出现过拟合。所以对数据集而言要把它分成训练数据集和测试数据集两部分,通过测试数据集来判断模型的好坏。其实在实际应用中,我们通常使用交叉验证(Cross Validation)的方法来训练我们的模型。 阅读全文
机器学习算法笔记(十七):过拟合与欠拟合、模型准确率与学习曲线
所谓欠拟合(Underfitting),就是算法所训练的模型不能完整表述数据之间的关系;所谓过拟合(Overfitting),就是算法所训练的模型过多表达了数据间的噪音关系(在拟合的过程中将数据的噪音当作了特征)。在我们学习使用机器学习算法的过程中,如何平衡过拟合和欠拟合的问题,将是我们永恒的话题。我们首先以先前的多项式回归为例,来看一下过拟合与欠拟合带来的问题。 阅读全文