可得方程组为:
称这个方程组为正规方程组,解这个二元一次方程组,得到:
如果把已有数据描绘成散点图,而且从散点图中可以看出,各个数据点大致分布在一条直线附近,不妨设他们满足线性方程:
其中,x为自变量,y为因变量,a与b为
待定系数;ε成为误差项或者扰动项。
这里要对数据点做线性回归分析,从而a和b就是待定的回归系数,ε为随机误差。 不妨设得到的线性拟合曲线为:
这就是要分析的线性回归方程。一般情况下,得到这个方程以后,主要是描绘出
回归曲线,并且观测拟合效果和计算一些误差分析指标,例如最大点误差、总方差和标准差等。
这里最缺乏的就是一个统一的评价系统,以下说明从概率角度确立的关于线性回归的一套评价系统。
在实际的线性回归分析中, 除了估计出线性回归系数a和b, 还要计算y和x的相关程度,即相关性检验。相关性检验主要通过计算相关系数来分析,相关系数的计算公式为:
其中n为数据点的个数,
为原始数据点,r的值能够很好地反映出线性相关程度的
高低,一般来说,存在以下一些标准:
1. 当 r →1 或者 r →? 1时,表示 y与x高度线性相关,于是由原始数据描绘出的散点图中所有数据点都分布在一条直线的附近,分别称为正相关和负相关;
2. 当 r →0 时,表示 y与x不相关,由原始数据描绘出的散点图的数据点一般呈无规律的特点四散分布;
5
3. 当?1 4. 如果r → 1,则y与x线性相关程度越高;反之,如果r →0 ,则y与x线性相关程度越低。 实际计算r值的过程中,长列表计算,即: 在实际问题中,一般要保证回归方程有最低程度的线性相关。因为许多实际问题中,两个变量之间并非线性的相关关系,或者说线性相关程度不高,此时硬给他建立线性回归方程,显然没有太大意义,也没有什么实用价值。 一般来说,把这个最低限度的值记为临界值出r的值,并且满足 ,称之为相关性检验标准。因此,如果计算 ,则符合相关性要求,线性回归方程作用显著。反之,如果 ,则线性回归方程作用不显著,就尽量不要采用线性回归方程。临界值的数值表如下: 其中,自由度可以由原始数据点的个数减去相应的回归方程的变量个数,例如线性回归方程中有两个变量,而数据点的个数为n个,则自由度为n ? 2.自由度一般记为 f ,但不要与一般的函数发生混淆。显著性水平一般取为 0.01,0.02,0.05等,利用它可以计算y与x之间相关关系的可信程度或者称为置信水平,计算公式为: (这里取显著性水平为α =0.05 ) 现在介绍置信区间的问题,由于实际误差的存在,由线性拟合得到的计算值跟实际值之间必然存在一定的差距,其差值就是计算误差。假设原始数据点为为 ,计算得到的数据点 ,再给定附近的一个区间: 6 则实际值yi可能落在这个区间内, 也可能落在这个区间外。如果所有的这些区间 (以为中心,长度为 )包含实际值的个数占总数的比例达到95%或者以上,则称这些区 间的置信水平不少于95% 根据以上的分析,可以知道置信区间的概念,如果确定了置信水平为95%,从而可以找到相应的最小的Δt值,使得 95%以上的实际值落在区间 内, 则 称为预测值满足置信水平95%的置信区间。一般情况下,如果不做特别说明,置信区间的相应置信水平默认为95%,置信区间反映了回归方程的适用范围和精确度,特别的,当所有离散数据分布在回归曲线的附件,大致呈现为正态分布时,置信区间为:中S 为该回归模型的标准差,计算公式为: 其 或者为: 那么,如果回归方程为 y=a+bx,则有两条控制直线分别为 ,他们代表了置信区间的上限和下限,如下图所示: 和 那么,可以预料实际的数据点几乎全部(至少95%)落在上图两条虚线所夹的区域内。 这里对回归方程的应用做一个总结: 1. 估计、预测指标值。对于因子x的一个给定值 x0 ,代入回归预测方程即可求出相应的指标值 ,称为指标y0的点估计,相应预测误差为 但是,真实指标 y0 的值一般无法确知,预测精度只能根据回归误差来做估计。在回归预测中,预测的精度可以用均方差和标准差的比值来估计; 2. 估计指标值范围。估计指标值的范围,就是求给定x0 ,相应于某个给定的置信水平的置信区间。具体的求法,要应用到t分布; 3. 控制因子取值。在某些实际问题中,特别当因子值可以人为的控制、调解时,也可以根据所要达到的指标值,反过来推出因子的取值,这就是因子值的控制。 7

