(一)根据关系的密切程度分类:1.完全相关(函数关系):完全相关是事物数量特征的最严格的相关关系,即一类变数的变化一定严格地随着另一类(或多类)变数的改变而变化,不能按其他方式进行。2.零相关(无相关):无相关是各种现象间的关系非常散乱,彼此无关或一现象任其变化而并不影响其他现象的变化。3.统计相关(近似关系):统计相关是介于完全相关与零相关之间,反映事物数量特征之间的不完全关系,即一类因素的变化不完全随着另一类(或多类)因素的改变而变化,也就是随着某一变数的确立,另一变数的平均数也随之而定,通常把这样的关系叫做相关关系。(二)根据联系因素的多少分类:1.简单回归与相关:(1)直线回归与相关:两类变数的变化在平面上的分布趋向直线形式,依其相互变化的方向不同而分为:1)正相关。在直线相关中,一类变数X增加(或减少),另一类变数Y也随着增加(或减少),即其变化方向相同,这种关系称为正相关。2)负相关。在直线相关中,当自变数X增加(或减少),依变数Y也随着减少(或增加),即其变化方向相反,这种关系为负相关。(2)曲线回归与相关:两类变数的变化在平面上的分布趋向一定的曲线形式。2.偏回归与偏相关:在同时研究多种现象的关系中,为了某种目的,固定其中一种或几种现象,只研究两种现象间的回归与相关,即在若干个自变数中,把1个或几个自变数当做固定不变,只研究其中两类变数的回归与相关,称为偏回归和偏相关(或称净相关)。3.多元回归与多元相关:同时研究几种因素与一种因素,或者几类变数与一类变数的相关关系,如果研究两类以上自变数与一类依变数的回归关系,称为多元回归或复回归;如果研究两类以上变数共同与一类变数的相关,称为多元相关或复相关。
认识相关关系的方法:1、确定相关关系的形式(直线或曲线),其目的找出一个适合的数学式(回归方程)来反映其间的依存关系,以确定关系的方向;2、确定相关关系的密切程度,即求出一个简单的数量(相关系数)来表明相关程度的大小。
回归和相关分析常用的方法:1、列表表示法:用表格来表示两类变数的相关关系的方法。考查相关,首先要搜集研究对象的实际资料,并整理成简单的双行表。2、图形表示法:用图形表示两类变数间相互依存关系的方法,一般常用的有散点图和曲线图。3、分析表示法:用数学方程来表示两类变数的相关关系的方法。 一元线性回归:如果自变数与依变数都是一个,且Y和X呈线性关系,这就称为一元线性回归。
回归分析要解决的问题:1.根据试验观察值建立适当的回归方程,或者检验某一回归方程是否合用;2.对回归方程中回归系数的进行估计;3.对未知参数进行假设测验;4.利用建立起的方程进行预测和控制。
线性回归方程:用来概括两类变数互变关系的线性方程称为~。通式为:?=a+bX。上式叫做Y依X的直线回归。其中X是自然变数,?是依变数Y的估计值,a是X=0时的?值,即回归直线在Y轴上的截距,称为回归截距,b是X每增加一个单位数时,Y将平均地增加(b>0时)或减少(b<0时)的单位数,称为回归系数或斜率。 回归直线:由直线回归方程可以在平面上作一条代表两类变数相互关系的直线,这条直线称为回归直线。
由各成对观察值直接建立回归方程的步骤:(1)判断直线性两类变数的相关是否呈直线形式,由观察值作散点图可知。(2)令?=a+bX另一现象的变化。(3)计算a和b值。(4)以求得的a和b值代入所令方程?=a+bX即得。 线性回归的估计标准误:为了确定回归方程的精确度,必须进而估计分布的变异度,这个变异度的统计数叫做线性回
归估计标准误,或离回归标准差,记为
sY?X其定义为:
sY?X?Q?n?2???Y?Y?2n?2。上式中Q为离回归平方和或剩
余平方和,或称回归离差平方和。若各个观察点愈靠近回归直线,越远,则
sY?X的值将愈小;若各观察点在回归线上下分散得
sY?X的值越大;ss若各观察点都落在回归直线上,则Y?X=0,故样本的Y?X值是表示回归精确度的重要统计数。
sY?X愈小,由回归方程估计y的精确性愈大。
线性回归模型的基本假定:(1)X是固定的变数,没有误差,或者X的误差和Y比较,小到可以忽略不计。而Y则是随
N?a??X,?2?a??X机变数;(2)在可能取值的区间内任一个X上都存在一个Y总体。随机变数Y服从正态分布。
2??a??X?Y?XY称为Y对X的回归函数,其值称为回归值,即;(3)所有的Y总体都具有共同的方差?X,这个方差
不随X而变;但平均数
?Y?X要随X取值的改变而呈线性变化,其关系可表示为:?Y?X??Y???Xi??X?;(4)随机
2N?0,??误差i是相互独立,且服从正态分布N???;
(5)线性回归模型可表示为
X?Y22,?Y?X??N?a??X,?Y?X?,
即
2?a??XY总体是以为平均数,Y?X为方差而作正态分布。
回归关系的假设测验:任两个变数的总体若不存在回归关系,或者虽有回归关系但不是线性关系,都可用前面讲的方
法算得一个线性方程,但由此方程估算?的效果如何,就需要测验一类变数随另一类变数而变化的回归关系是否达到显著的标准,需要测定样本来自无线性回归关系的总体的概率大小。若此概率p≤0.05,才能推断线性回归关系是显著的。这就是回归关系的假设测验,常用F测验或t测验。 回归平方和:将总平方和
??Y?y?分解成两种变异来源的平方和,由自变数X的取值不同造成的平方和,称为回
2归平方和。由其他因素造成的平方和叫做误差平方和,也叫做离回归平方和或剩余平方和。
内插和外推:一般把在试验点范围内使用回归方程预测称为内插。而在这个范围之外使用回归方程预测称为外推。 相关分析(线性相关分析):以计算双变数资料线性相关系数为基础的统计分析方法称之。
相关系数:计算表示X和Y之间线性关系密切程度和性质的统计数,也就是两个变数标准化离差的乘积之和的平均称为之。从总体数据计算得的相关系数称为总体相关系数,记为?。从随机样本算得的,称为样本相关系数,记为r。英国生物学家高尔顿在19世纪末研究人类遗传时提出。
双变数总体:把这两种性状都呈正态分布的资料同时记录来研究,这就是双变数正态总体,简称双变数总体。
决定系数:由X变数不同而引起的Y变数平方和占Y变数总平方和的比率,或由Y变数不同而引起的X变数的平方和的比率。记为r。决定系数是相关系数的平方值。
相关系数和决定系数的区别(1)除了|r|=1和0外,决定系数r总是小于相关系数r,这可以避免相关系数对相关程度虚假地夸大。(2)相关系数r有正有负,而决定系数r只取正值,其取值区间[0,1]。(3)决定系数r的计算简单,而且r的意义比相关系数r清楚。
相关系数的假设测验:为了判断r所代表的总体是否有真实相关,必须测定实得r值来自ρ=0的总体的概率,这就是相关系数的假设测验。
相关系数r的变异受两个因素影响:1、总体的相关系数?值;2、样本包含的配对数n。
相关系数r的显著性测验:为了判断所代表的总体是否确有线性关系,必须测定实得r值来自ρ=0的总体的概率,这就是相关系数的显著性测验。
22222?依X和X?依Y的回归系数的几何平均数;回归和相关的关系:1、回归方程可用相关系数来表示;2、相关系数是Y3、线性回归平方和与离回归平方和也可用相关系数表示;4、相关系数是标准化的回归系数。
直线回归和相关的应用要点:
(1)回归和相关分析要有学科专业知识作指导。
(2)要严格控制研究对象(X和Y)以外的有关因素,即要在X和Y的变化过程中尽量使其它因素保持稳定一致。 (3)直线回归和相关分析结果不显著,并不意味着X和Y没有关系,而只说明X和Y没有显著的线性关系,它并不能排除两变数间存在曲线关系的可能性。
(4)一个显著的r或b并不代表X和Y的关系就一定是线性的,因为它并不排斥能够更好地描述X和Y的各种曲线的存在。
(5)在X和Y的一定区间内,用线性关系作近似描述是允许的,它的精确度至少要比仅用描述y变数有显著提高。 (6)一个显著的相关或回归并不一定具有实践上的预测意义。
(7)为了提高回归和相关分析的准确性,两个变数的样本容量n(观察值对数)要尽可能大一些,至少应有5对以上。
第十章协方差分析
?为协方或均积,?。协方差:是两个变数的互变异数,乘积和除以自由度即得协方差cov一般又称cov也可记为MP,
它是总体协方差的估计值。
协方差分析:又叫互变量分析或相关变量分析,是方差与回归分析相结合而产生的一种统计方法。当有两类变数时,
??也可以按照变异原因,将平方和与自由度分解这就叫做协方差分析。
试验控制:在比较动植物新品种,以及栽培、饲养技术的试验中,为了提高试验的精确度必须严格控制试验条件的均匀性,使得每个重复的各处理尽可能在一致的条件下,使处理真实效果得以表现,这叫做试验控制。
协方差分析的功用:1.矫正处理平均数并测验矫正平均数间的差异显著性。若各处理有共同的显著的b值,就可以对自变数(X)进行统计控制,把各处理的yi都矫正到X在同一个水平?X?x?时的值,即矫正yi?X?x?,再测验各
yi?X?x?间的差异显著性。经过矫正后,误差减小。如果yi的变异主要由于X不同所引起,则各yi?X?x?间差异不会显
著。若yi的变异数除X不同的影响外,还有不同处理的显著效应,则各yi?X?x?间可能差异显著。所以,矫正平均数间的差异显著性测验,能够更真实地反映实际情况和提高试验效率。2.作出不同变异来源的相关关系分析。根据在方差分析的数学模型和期望均方中讲过的EMS的分解,可以得到不同变异来源的总体方差的估计值。在协方差分析中,根据协方MP和期望协方EMP的关系,同样可以得到不同变异来源的总体协方差估计值。因此,就能作出相关关系分析,可以在遗传育种和生态等方面的研究上应用。3.测定回归方程间的异同。假定有k个直线回归样本,需要研究各样本的回归截距a间是否差异显著,各样本的回归系数b间是否差异显著。如果回归截距间、回归系数间都没有显著差异,就可以综合成一个共同的回归方程来表示各样本的X和Y的数量关系;如果回归截距a间差异显著,而回归系数b间没有显著差异,就是一组平行的回归线,而有一个共同的回归系数可以利用;如果回归截距间没有显著差异,而回归系数间有显著差异,这就是一组起点相同,而斜率不同的辐射状回归线,有一个共同的回归截距可供利用;如果回归截距间,回归系数间都有显著差异,则表示X和Y的数量关系是不同的k条回归线,而无共同之处。通过协方差分析可以判别上述各种情况,可以寻求事物间的数量关系有无共性存在。 在农业试验上计算矫正平均数,经常应用在下列几方面:
(1)当试验小区发生缺株时,为使供试品种或处理仍能作出正确的比较,可利用协方差分析法将各品种或处理的产量矫正为植株数相同时的产量,再进行比较。
(2)对于病虫害防治试验,由于处理前各小区的受害率不同,应利用协方差分析将各处理小区的受害率矫正为相同受害率的条件下,再作处理效果的比较。
(3)多年生植物由于土壤等环境条件的差异,原来植株的生育状况和产量都有所不同,对处理后各处理间效果的比较也有不同的影响,必须采用协方差分析以处理前的基数矫正处理后的结果。
(4)在家畜饲养试验上,家畜的起始体重不一致。根据始重与末重的回归关系,对末重进行矫正,以消除始重不等的影响。
协方差分析的数学模型:是方差分析的数学模型与直线回归数学模型的结合。1、单向分组资料协方差分析的数学模型:
Yij???Y???i?X??i?j??。
Xij;2、两向分组资料协方差分析的数学模型:
Yij??Y??i??j???Xij??X???ij协方差分析的基本假定:包括方差分析与线性回归所有假定。(1)自变数X是固定的,即观察值没有度量误差,因而处理效应?i属固定模型。(2)各个处理的(X,Y)总体都是线性的,具有共同的回归系数β,即各样本的b是没有显著差异的,它们是一组平行线,这一假定可由协方差分析中的F测验作出证明。(3)随机误差?ij是独立的(与处理效应无
2关),?ij?N0,?Y?X。各样本的离回归均方sY?X???2Q是同质的,这一假设可由巴特莱特测验证明。
?n?2?
第十一章多元线性回归和相关
多元回归:研究两个以上因素(或变数)同时与一个因素(或变数)的关系的统计方法,在回归方面称为多元(或复)回归,在相关方面称为多元(或复)相关。研究两个变数或两种因素的纯粹回归与纯粹相关关系的统计方法,称为偏(净)回归与偏(净)相关。
在多元回归与相关分析中需要解决的问题:1、确定各个自变数对某一依变数的各自效应,这个效应就是偏回归系数。2、确定各个自变数对某一依变数的综合效应,这就是建立多元回归方程。3、在大量自变数中选择仅对依变数有显著效应的自变数,建立最优的多元回归方程。4、评价各个自变数对于依变数的相对重要性,以及一个变数与多个变数关系的密切程度。5、多元相关与偏相关的统计数,常用于有自变数和依变数之分的资料,并作为回归显著性的一个指标。
多元线性回归:研究依变数Y和自变数X1,X2,?,Xm之间的定量关系问题是多元线性回归问题。表示Y和?差异大小的量称为多元回归方程的估计标准误或称多元回归的离回归标准差。
偏相关系数(净相关系数):在研究M?M?3?个变数的相关问题时,固定其中M-2个变数,余下的两个变数Xi和Xj的线性相关系数称之。
偏相关系数计算的方法:1、用简单相关系数直接计算;2、用矩阵计算:(1)由简单相关系数组成相关矩阵R;(2)算出相关矩阵的逆矩阵R;(3)求得R?1?1??Cij?后,任两个变数i和j(i≠j)的偏相关系数。
多元相关系数:设有多个变数Y和X1,X2,?,Xm,其中一个变数如Y与其它变数X1,X2,?,Xm的相关,基本指标是Y对X1,X2,?,Xm的多元相关系数。即是多元回归平方和与总变异平方和之比的平方根。
第十二章完全随机设计
完全随机设计:将试验的各处理(或品种)安排在整个试验地上的各小区,没有“地区控制”的限制,这种设计称为完全随机设计,简称CRD。
完全随机设计的特点:优点是方法简单易设计,处理数目与重复次数都不受限制,各处理重复数可以不等,可以充分利用全部试验单位;统计分析比较简单、容易,也不难分析;试验误差自由度大于处理数和重复数相等的其它设计。缺点是缺乏误差控制,因而试验误差偏高,精确度较低。因此宜在试验单位和小区土壤表现较为同质,环境容易效应控制;试验中部分处理可能无效应或完全失败,使得试验资料不全;试验单位不多的小规模试验应用。田间试验较少采用。
随机化分组方法:1.确定试验小区总数;2.给每一个小区依次编号,从1到n;3.试验处理随机分配给任一试验小区。
试验处理随机分配步骤:1.查随机数字表,任翻一页,随意确定一个起点和走向。2.将表中的随机数字由小到大或由大到小的顺序排列。3.将以上所有的n个秩次数,分成t组,每组包含r个数字。4)分配t个处理到n个试验小区。
第十三章随机区组设计 随机区组设计:是根据局部控制的原则,将整个试验地划分成若干个各自相对均匀一致而彼此相对差异较大的区组,然后在每一区组中随机安排k个处理的设计。
随机区组设计的特点:是根据“局部控制”的原则,将试验地按肥力程度划分为等于重复次数的区组,一区组亦即一重复,区组内各处理都独立地随机排列。优点是①设计简单,容易掌握;②灵活性大,单因素的、多因素的以及综合性的试验都可以应用;③符合试验设计的三大原则,能提供无偏的误差估计,能有效地减少单向的土壤肥力差异对试验的影响,降低试验误差,提高试验的精确度;④对试验地的形状和大小要求不严,必要时不同区组可以分散设置在不同的地段上;⑤易于分析,而且对于因某种偶然事故而损失某一处理或区组时,可除去该处理或区组,再进行分析。缺点是①处理数不能太多,因为处理过多,区组必然增大,区组内的环境变异增加,从而丧失区组局部控制的功能,增大试验误差,在田间试验中,处理数一般不超过20个,最好为10个左右;②只能控制一个方向的土壤差异,试验精确度不及拉丁方设计。
区组技术:在进行随机区组设计时,重复(区组)数的确定主要考虑试验误差的自由度,应使其不小于12,即(k-1)(r-1)≥12。从而重复(区组)数为:r?12?1。其中,k为处理数。在田间布置随机区组时,主要应该考虑试k?1验的精确度,同时兼顾工作的便利。为了降低试验误差,应使区组之间占有最大的土壤差异,而同一区组内小区之间的差异应尽可能小。一般情况下,狭长形小区间的土壤差异最小,而方形和近方形的区组间的差异较大。因此,在通

