一个合适的分组方式,以作出数据分布的直方图,并提供了拟合几种常见分别的选项.
a0x(1)a1ai?1x(j)aix(n)
an
直方图
3.参数分布拟合检验
直方图的边缘曲线为阶梯型,而一些概率密度曲线是光滑的.因此,需要根据直方图大体形状,确定密度曲线,在限定的参数分布中,利用数据估计其中的参数,选出最接近的密度曲线拟合直方图边缘曲线,并作检验.
三.经验分布函数
总体X的分布函数为F(x),样本观测值x1,x2,?,xn,经验分布函数 Fn(x)?1niI(x?ni?1?x) (1.19)
其中I(?)是示性函数,
?1I(xi?x)???0xi?xxi?x
Fn(x)为分段右连续阶梯函数,n充分大时,F(x)?Fn(x).
SAS系统Capabilty过程可做出Fn(x)及拟合F(x)的图,并从直观上拟合的好坏.
四. QQ图
直方图、经验分布图判断样本分布是否近似某种类型的分布是困难的,QQ图则可以帮助从直观上做出这方面的判断.
?x???x设样本值x1,x2,?,xn,顺序统计量x(1)(2)(n).?(x)为标准正态分布的分
布函数, ??1(x)为反函数.QQ图为以下点构成的散点图:
(??1(i?0.35x?0.25),x(i))?(i?1,2,?,n) (1.20)
注意:10 当样本数据近似服从正态分布N(?,?2),则QQ图近似一条直线 y??x??,斜率?,截距为?,此时可认为样本数据来自正态总体;
2当样本不是来自正态总体,则QQ图是弯曲的,可由形状判断偏度和峰度的正负.
2
近似正态 偏度为正 偏度为负
峰度为负 峰度为负 解释:10 QQ图和分位数的关系 20 右偏态
例1.4利用例1.1的血清蛋白含量数据,作出直方图、经验分布图,拟合正态分布曲线,作正态QQ图,并直观判断数据是否来自正态总体.
解:(1)由SAS系统capability过程,作出直方图,并拟合正态分布曲线(图1.5)
1)分组区间:
次序统计量 x(1)?64.3?x(2)???x(n)?84.3,
SAS系统自动自动将数据分为9个区间,组距??3,中间值为61.5,64.5,67.5,70.5,73.5,76.5,79.5,82.5,85.5
区间为 a0?60.0?a1?63.0???a9?87.0,
数据落入各区间頻数fi为 0,3,10,15,34,24,10,3,1
2)图像纵坐标取频率fi/100,作直方图,每个长方形的面积为频率*组距3,直方图
拟合的曲线为近似的概率密度*3;
3)拟合检验
从图上看接近正态总体,边缘曲线/3接近密度曲线.
由极大似然估计得,拟合的正态分布密度曲线以??x?73.66,数,为样本均值和标准差
1??2(x??)?22????s?3.94为参
?则拟合的概率密度为 f(x)?2???e?12?*3.94?(x?73.66)2*3.9422e
如图1.5,图中曲线为正态概率密度乘以组距3.
4)检验
正态分布的?2检验及经验分布Kolmogorov-Smirnov,Cramer-von Mises,Anderson- Darling 3种拟合检验,见程序结果.
0.350.300.25Prop0.20orti0.15on0.100.050.0061.564.567.570.573.5xCurve:Normal(Mu=73.66 Sigma=3.9401)76.579.582.585.5 图1.5 蛋白含量的正态分布直方图及拟合曲线
(2)作经验分布图
同样由SAS系统capability过程,作出经验分布曲线与理论分布曲线,从图中看出拟合程度相当好(图1.6).
10080Cumulat60ive Pe40rcent200606570xNormal Curve:Mu=73.66, Sigma=3.9401758085 图1.6 n=100 蛋白含量的经验分布函数Fn(x)及拟合曲线F(x)
(3)作正态分布QQ图
SAS系统capability过程,作出数据的正态分布QQ图(图1.7).从图上看,散点近似在一条直线上,可认为数据来自正态分布总体.
858075x706560-3-2-10Normal QuantilesNormal Line:Mu=73.66, Sigma=3.9401123 图1.7 正态分布QQ图
程序如下: data examp1_4;

