数据分析师需要掌握的10个统计方法（上）

行云流水2016 · 发表于 2018-4-9 10:48:41

为什么要学习统计学？因为了解各种技术背后的想法是非常重要的，以便知道如何以及何时使用它们。此外，这是一个非常有前景的研究领域，在科学，工业和金融领域有着重要的应用，而且统计学是培养现代数据科学家的基本要素。

统计学应用的经典例子包括以下这些：

确定前列腺癌的危险因素。
根据记录周期图对录制的音素进行分类。
根据人口统计，饮食和临床测量预测是否有人会发生心脏病。
自定义垃圾邮件检测系统。
识别手写邮政编码中的数字。
将组织样本分为几个癌症类别之一。

建立人口调查数据中工资与人口变量之间的关系。

本篇文章分享《统计学入门》一书中的10个统计方法，任何数据科学家都应该学会更有效地处理大数据集。由于篇幅原因，这次先介绍前5个，下篇文章再介绍剩下的。

在使用这10种方法之前，大家要区分“统计学习”和“机器学习”：

机器学习是人工智能的一个子领域。
统计学习是统计学的一个分支。
机器学习更强调大规模应用和预测的准确性。
统计学习强调模型及其可解释性，精确性和不确定性。
但是这种区别变得越来越模糊，并且存在着很多“交叉”。
机器学习在市场营销中占据上风！

1、线性回归（Linear Regression）

在统计学中，线性回归是一种通过拟合自变量与自变量之间最佳线性关系来预测目标变量的方法。最好的做法是确保每个点的形状和实际观测之间的所有距离之和尽可能小。形状的适合性是“最好的”，因为在形状的选择上没有其他位置会产生较少的误差。线性回归的2种主要类型是简单线性回归和多元线性回归。简单线性回归使用一个独立变量来通过拟合最佳线性关系来预测因变量。多重线性回归使用多个独立变量来通过拟合最佳线性关系来预测因变量。

举个例子：选择你在日常生活中使用的任何两件相关的东西，例如每月支出，月收入和过去三年每月的旅行次数的数据。现在回答以下问题：

明年的每月开支是多少？

哪个因素（每月收入或每月旅行次数）在决定我的每月支出时更重要？
月收入和每月旅行如何与每月支出相关？

2、分类（Classification）

分类是一种数据挖掘技术，它将类别分配给数据集合，以帮助进行更准确的预测和分析。也有时称为决策树，分类是用于对非常大的数据集进行分析的几种方法之一。2大分类技术脱颖而出：Logistic回归和判别分析。

Logistic回归分析是当因变量是二分的（二元）时进行的适当的回归分析。像所有回归分析一样，逻辑回归是预测分析。 Logistic回归用于描述数据并解释一个相关二元变量与一个或多个名义，序数，区间或比例级别的独立变量之间的关系。逻辑回归可以检查的问题类型：

体重每增加一磅和每天吸一包香烟，肺癌的可能性（是vs否）会发生怎样的变化？
体重卡路里摄入量，脂肪摄入量和参与者年龄对心脏病发作有何影响（有vs无）？

在判别分析中，先验已知2个或更多个组或群或群，并基于所测量的特征将1个或更多个新观察分类到1个已知群中。判别分析在每个响应类别中分别对预测变量X的分布进行建模，然后使用贝叶斯定理将它们翻转为给定X的值的响应类别概率的估计。这样的模型可以是线性的或二次的。

线性判别分析为每个观测值计算“判别分数”，以便对它所处的响应变量类别进行分类。这些分数是通过寻找自变量的线性组合得到的。它假设每个类别内的观察值都来自多变量高斯分布，预测变量的协方差在响应变量Y的所有k个水平上是共同的。

二次判别分析提供了一种替代方法。和LDA一样，QDA假定每个Y类的观测值都是从高斯分布中得到的。但是，与LDA不同的是，QDA假定每个类都有其自己的协方差矩阵。换句话说，预测变量不被假定在Y中的每个k个水平上具有共同的方差。

3、重采样方法（ResamplingMethods）

重采样是从原始数据样本中绘制重复样本的方法。这是统计推断的非参数方法。换句话说，重采样方法不涉及使用通用分布表来计算近似p个概率值。

重采样根据实际数据生成唯一的采样分布。它使用实验方法而不是分析方法来生成独特的抽样分布。它产生无偏估计，因为它是基于研究者所研究数据的所有可能结果的无偏样本。为了理解重采样的概念，您应该理解术语拔靴法（Bootstrapping）和交叉验证（Cross-Validation）：

拔靴法是一种技术，可以帮助您在很多情况下验证预测模型的性能、集成方法、估计模型的偏差和方差。它通过对原始数据进行替换进行采样，并将“未选择”的数据点作为测试用例。我们可以多做几次，并计算平均分作为我们的模型性能的估计。

另一方面，交叉验证是验证模型性能的一种技术，它是通过将训练数据分成k个部分来完成的。我们以k - 1部分作为训练集，并使用“伸出部分”作为我们的测试集。我们重复k次不同的方式。最后，我们将k分数的平均值作为我们的业绩估计。

通常对于线性模型来说，普通最小二乘法是要考虑将其纳入数据的主要标准。接下来的3种方法是可以为线性模型的拟合提供更好的预测精度和模型可解释性的替代方法。

4、子集选择（Subset Selection）

这种方法确定了我们认为与响应相关的p个预测因子的一个子集。然后，我们使用子集特征的最小二乘拟合模型。

最佳子集选择：这里我们对每个可能的p个预测子组合进行单独的OLS回归拟合，然后查看最终的模型拟合。该算法分为2个阶段：（1）拟合所有包含k个预测变量的模型，其中k是模型的最大长度;（2）使用交叉验证的预测误差选择单个模型。使用测试或验证错误非常重要，而不是训练错误来评估模型拟合，因为RSS和R 2单调增加更多的变量。最好的方法是在测试误差估计值上交叉验证并选择具有最高R 2和最低RSS的模型。
向前逐步选择考虑p个预测因子的更小的子集。它从不含预测变量的模型开始，然后在模型中添加预测变量，直到所有预测变量都在模型中。被添加的变量的顺序是变量，其给出对拟合的最大的加法改进，直到没有更多的变量使用交叉验证的预测误差来改进模型拟合。
向后逐步选择开始将模型中的所有预测变量，然后迭代去除最不有用的预测变量。
混合方法遵循前向逐步方法，但是，在添加每个新变量之后，该方法还可以移除对模型拟合没有贡献的变量。

5、特征缩减技术（Shrinkage）

这种方法适合一个涉及所有p个预测因子的模型，然而，估计的系数相对于最小二乘估计向零收缩。这种缩水，又称正规化，具有减少方差的作用。取决于执行什么类型的收缩，可以估计一些系数恰好为零。因此这个方法也执行变量选择。将系数估计收缩为零的两个最着名的技术是岭回归（ridge regression）和lasso回归。

岭回归类似于最小二乘，除了通过最小化一个稍微不同的数量估计系数。像OLS一样，岭回归寻求减少RSS的系数估计，然而当系数接近于零时，它们也会有收缩惩罚。这个惩罚的作用是将系数估计收缩到零。不用进入数学计算，知道岭回归缩小列空间方差最小的特征是有用的。像在主成分分析中一样，岭回归将数据投影到双向空间，然后比高方差分量收缩低方差分量的系数，这相当于最大和最小主分量。
岭回归至少有一个缺点;它包括最终模型中的所有p个预测值。罚款期限将使他们中的许多接近于零，但从未完全为零。这对于预测准确性来说通常不是问题，但它可能使模型更难以解释结果。Lasso回归克服了这个缺点，并且能够迫使一些系数归零，只要s足够小。由于s = 1导致有规律的OLS回归，当s接近0时，系数收缩为零。因此，Lasso回归也执行变量选择。

下篇文章我们将介绍维数缩减、非线性模型、基于树的方法、支持向量机、无监督学习，敬请期待喔！

关注壹看板，免费注册试用可视化数据分析工具！更有好礼活动进行中！

收藏本站

快速投稿

企业专区

企业入驻

广告服务

基石导航

峰会活动

[共享] 数据分析师需要掌握的10个统计方法（上）