Python大数据分析算法与实例
上QQ阅读APP看书,第一时间看更新

1.3 大数据分析算法

1.大数据分析与数据分析的区别

大数据分析是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息处理模式。

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,从而对数据加以详细研究和概括总结的过程。

大数据分析的优势是能清楚地阐述数据采集、大数据处理过程及最终结果的解读,同时提出模型的优化和改进之处,以利于提升大数据分析的商业价值。

大数据分析与数据分析的核心区别是处理的数据规模不同,由此导致两个方向从业者的技能也不同。大数据分析与数据分析的根本区别是分析的思维与分析所用的工具不同。

2.机器学习和数据挖掘的联系与区别

从数据分析的角度来看,数据挖掘与机器学习(Machine Learning,ML)有很多相似之处,但不同之处也十分明显,例如,数据挖掘并没有机器学习探索人的学习机制这一科学发现任务,数据挖掘中的数据分析是针对海量数据进行的,从某种意义来说,机器学习的科学成分更重一些,而数据挖掘的技术成分更重一些。

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。

数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘中用到了大量的机器学习领域提供的数据分析技术,以及数据库领域提供的数据管理技术。

机器学习不仅涉及对人的认知学习过程的探索,还涉及对数据的分析处理。实际上,机器学习已经成为计算机数据分析技术的创新源头之一。由于几乎所有的学科都要面对数据分析任务,因此机器学习已经开始影响计算机科学的众多领域,甚至影响计算机科学之外的很多学科。机器学习是数据挖掘中的一种重要工具。然而数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪声等实践问题。机器学习的涉及面很宽,常用在数据挖掘上的方法是“从数据学习”。然而机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,如增强学习与自动控制等。

3.统计学习与机器学习的联系与区别

统计学和机器学习之间的界定一直很模糊。无论是业界还是学界一直认为机器学习只是统计学披了一层光鲜的外衣。而事实是统计学与机器学习的不同,统计模型与机器学习的不同。机器学习和统计的主要区别在于它们的目的。机器学习模型旨在使最准确的预测成为可能。统计模型是为推断变量之间的关系而设计的。

首先,我们必须明白,统计和统计建模是不一样的。统计是对数据的数学研究,除非有数据,否则无法进行统计。统计模型是数据的模型,主要用于推断数据中不同内容的关系,或创建能够预测未来值的模型。通常情况下,这两者是相辅相成的。机器学习通常会牺牲可解释性以获得强大的预测能力。例如,从线性回归到神经网络,尽管解释性变差,但是预测能力却大幅提高。

统计模型与机器学习在线性回归的应用上是有差异的,或许是因为统计建模和机器学习中使用方法的相似性,使人们认为它们是同一类算法,但事实上不是这样的。统计模型和机器学习在回归分析建模方法的相似性,是造成这种误解的主要原因,其实它们的目的是不同的。线性回归是一种统计方法,通过这种方法既可以训练一个线性回归器,又可以通过最小二乘法拟合一个统计回归模型。机器学习(这里特指有监督学习)的目的是获得一个可反复预测的模型,通常不关心模型是否可以解释,只在乎结果。而统计建模更多的是为了寻找变量之间的关系和确定关系的显著性,恰巧迎合了预测。

4.统计学与数据挖掘的联系与区别

统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,有人认为数据挖掘是统计学的分支。这种看法有偏差。因为数据挖掘还应用了其他领域的思维、工具和算法,尤其是计算机科学技术,例如数据库技术和机器学习,而且数据挖掘关注的某些领域和统计学家关注的有很大差别。

5.大数据分析的10个统计方法

数据分析师不完全是软件工程师,应该是编程、统计和批判性思维三者的结合体。统计学习是培养现代数据分析师的一个基本素材。下面分享10个统计方法,任何数据分析师都应该学习,进而更高效地处理大数据集。

(1)线性回归

线性回归是一种通过拟合因变量和自变量之间的最佳线性关系来预测目标变量的方法。线性回归主要分为简单线性回归和多元线性回归。简单线性回归使用一个自变量,通过拟合一个最佳线性关系来预测因变量;而多元线性回归使用一个以上的自变量来预测因变量。

(2)分类

分类是一种数据挖掘技术,用来将一个整体数据集分成几个类别,以便更准确地预测和分析。

(3)重采样方法

重采样是从原始数据样本中反复抽样的方法,是一种非参数统计推断方法。重采样在实际数据的基础上生成唯一的抽样分布。

(4)子集选择

子集选择首先确定我们认为与反应有关的P预测因子的一个子集,然后使用子集特征的最小二乘拟合模型。

(5)特征缩减技术

通过对损失函数加入正则项,使得在训练求解参数的过程中将影响较小的特征的系数衰减到0,只保留重要的特征。

(6)降维

降维是将估计P+1个系数减少为M+1个系数,其中M可以将主成分回归描述为从一组大的变量中导出低纬度特征集的方法。

(7)非线性回归

非线性回归是回归分析的一种形式,在这种分析中,观测数据通过模型参数和因变量的非线性组合函数建模,数据用逐次逼近法进行拟合。

(8)树形方法

树形方法可以用于回归和分类问题,这些涉及将预测空间分层或分段为一些简单的区域。由于分割预测空间的分裂规则可以用树形总结,因此这类方法也被称为决策树方法。

(9)支持向量机

支持向量机(Support Vector Machine,SVM)是一种分类技术,简单地说,就是寻找一个超平面以最好地将两类点与最大边界区分开。

(10)无监督学习

无监督学习就是在无类别信息的情况下寻找到好的特征。