在第十七篇笔记中,我们提到在机器学习模型训练的过程中,会遭遇过拟合或者欠拟合的问题,这些问题都会使训练出来的机器学习模型在真实的预测过程中产生各种误差或者错误。下面我们在更高的视角下来看一下在训练机器学习模型时出现的误差该如何进行分类。 阅读全文
作者: LouYu
Mac下安装EasyConnect后防止EasyMonitor进程强制驻留的方法
为了连接学校VPN,在自己的Mac电脑上装了EasyConnect。最近在使用活动监视器查看网络情况的时候,无意中发现了这么一个进程:EasyMonitor,一个EasyConnect的附属进程,一直源源不断的上传下载。该程序以root权限运行,不能强制退出,即使我在终端使用kill命令结束了,也会立刻重启,继续在后台上传下载! 阅读全文
机器学习算法笔记(十八):验证数据集与交叉验证
如果我们在训练模型时把所有的样本数据都当做训练数据的话,这样的模型如果发生了过拟合我们并不自知:因为在这种情况下在训练数据集上的误差会非常小,让我们觉得训练出来的模型很好但很有可能泛化能力不足而出现过拟合。所以对数据集而言要把它分成训练数据集和测试数据集两部分,通过测试数据集来判断模型的好坏。其实在实际应用中,我们通常使用交叉验证(Cross Validation)的方法来训练我们的模型。 阅读全文
机器学习算法笔记(十七):过拟合与欠拟合、模型准确率与学习曲线
所谓欠拟合(Underfitting),就是算法所训练的模型不能完整表述数据之间的关系;所谓过拟合(Overfitting),就是算法所训练的模型过多表达了数据间的噪音关系(在拟合的过程中将数据的噪音当作了特征)。在我们学习使用机器学习算法的过程中,如何平衡过拟合和欠拟合的问题,将是我们永恒的话题。我们首先以先前的多项式回归为例,来看一下过拟合与欠拟合带来的问题。 阅读全文