机器学习算法笔记(十七):过拟合与欠拟合、模型准确率与学习曲线

所谓欠拟合(Underfitting),就是算法所训练的模型不能完整表述数据之间的关系;所谓过拟合(Overfitting),就是算法所训练的模型过多表达了数据间的噪音关系(在拟合的过程中将数据的噪音当作了特征)。在我们学习使用机器学习算法的过程中,如何平衡过拟合和欠拟合的问题,将是我们永恒的话题。我们首先以先前的多项式回归为例,来看一下过拟合与欠拟合带来的问题。 阅读全文

机器学习算法笔记(十六):多项式回归初探

线性回归法有一个很大的局限性,它要求假设我们数据背后是存在线性关系的。但在实际应用中,具有线性关系假设的数据集相对来说比较少,更多的数据之间具有的是非线性的关系。其实我们用一种非常简单的手段就能改进线性回归法,可以对非线性的数据进行处理和预测,也就是所谓的多项式回归(Polynomial Regression)阅读全文

机器学习算法笔记(十四):将高维数据映射为低维数据

上一篇文章讨论了如何求一个数据集的前n个主成分。我们虽然求出了这些主成分所代表的坐标轴的方向,但数据集本身依然是n维的,并没有进行降维。具体我们如何运用PCA对数据进行映射的呢?本篇文章将探讨高维数据向低位数据进行映射的过程。 阅读全文