数据分析-挖掘方法
1.相关分析
相关分析(Correlation Analysis)就是对总体中确实具有联系的标志进行分析,其主体是对总体中具有因果关系标志的分析。它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程。
为了确定相关变量之间的关系,首先收集一些数据,这些数据应该是成对的。然后在直角坐标系上描述这些点,这一组点集称为“散点图”。根据散点图,当自变量取某一值时,因变量对应为一概率分布,如果对于所有的自变量取值的概率分布都相同,则说明因变量和自变量是没有相关关系的。反之,如果,自变量的取值不同,因变量的分布也不同,则说明两者是存在相关关系的。
相关分析按相关程度可以分为完全相关、不完全相关和不相关;按相关的方向分为正相关和负相关;按相关形式分为线性相关和非线性相关;按影响因素多少分为单相关和复相关。
两个变量之间的相关程度通过相关系数r来表示。相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程
度越强,r的绝对值越接近0,两变量的关联程度越弱。
皮尔森简单相关系数(Pearson correlation coefficient)主要适
用于度量定距型变量间的线性相关关系,不适用与度量非线性相关关系。其计算公式为:
斯皮尔曼等级相关系数(Spearman Rank Correlation)主要适用于度量定序变量间的线性相关关系。通过对两变量数据的秩进行计算秩的方差,进入得到Spearman等级相关系数。其计算公式为:
肯德尔一致性相关系数(The kandall coefficient of
concordace)同样适用于度量定序变量之间的线性相关关系。通过
对两变量秩计算一致对数目U和非一致对数目V,进而得到肯德尔的一致相关系数,其计算公式为:
2.回归分析
回归分析(Regression Analysis)是一种统计学上分析数据的方
法,已成功应用在金融经济学、医学等领域,它用于分析事物之间的统计关系,侧重考虑变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系。
所谓回归分析法,是在掌握大量观察数据的基础上,建立因变量与自变量之间的回归关系函数表达式,即回归方程式。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。
线性回归分析(Linear Regression)是研究一个因变量和一个或多个自变量之间是否存在某种线性关系的统计学方法。如果参与回归分析的自变量只有一个,就是线性回归分析,也称直线回归分析,得到的结果称为直线回归方程。如果参与回归分析的变量有多个,则是多元线性回归。
一般线性回归的数学模型为:
非线性回归分析(Nonlinear Regression)是指在因变量与一系列自变量之间建立非线性模型。“线性”和“非线性”并不是说因变
量和自变量之间是直线或曲线关系,而是说因变量是否能用自变量的线性组合来表示。如果经过变量转换,两个变量可以用线性表达其关系,那么可以用线性回归分析;如果经过变量转换后,两个变量关系仍然不能用线性形式表示,可以用非线性回归分析。
一般非线性回归模型可以表示为: 3.聚类分析
聚类分析(Cluster Analysis)又称群分析,是分类学的一种基本方法,将数据划分成有意义或有用的组(簇)。如果目标是划分成有意义的组,则簇应当捕获数据的自然结构。然而,在某种意义下,聚类分析只是解决其他问题的起点。无论是旨在理解还是实用,聚类分析都在广泛的领域扮演着重要角色。这些领域包括:心理学和其他社会科学、生物学、统计学、模式识别、信息检索、机器学习和数据挖掘。
聚类分析的基本思想是依照事物的数值特征来观察各样品间的亲疏关系。而样品之间的亲疏关系则由样品之间的距离来衡量,一旦样品之间的距离定义之后,就把距离近的样品归为一类。
传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软

