参阅已经发表的文献,常发现这样的问题,研究者设立了A、B和C组3个组,在统计检验时,先把A与B比较,然后B与C比较,再A与C比较,这是需要极力避免的。多重比较会增加I类错误的概率。假设有K个中心,同时参与某临床实验,如果按各个中心分别统计,则 a = 1 - ( 1 - 0.05 ) K。当K等于1、2、3、4时,a值依次为0.050、0.098、0.243、0.185,随着独立检验次数的增加,a值也增加。 1.4 统计分析软件的选择
统计软件非常多,目前临床研究常用并且比较权威的统计软件有SAS(Statistics AnalysisSystem)、SPSS(Statistical Package for the Social Science)、STATA(Statisties / Data Analysis) 和 Splus 等。STATA灵巧方便,价格也能为个人用户所承受。SSPS的菜单式操作,使用简便,而且介绍SPSS的书籍比较多,目前已经成为国内非统计专业人员统计的首选软件。SAS是主要针对专业统计用户设计的软件,在数据处理和统计分析领域,被誉为国际上的标准软件系统。国际上大部分著名高校和生物统计机构均使用SAS作为统计分析工具,一些最新的统计方法在SPSS和STAT中没有包括,需要选用SAS处理。 2 临床研究常用统计方法选择的原则 2.1 单组资料的分析
如果数据呈正态分布,则采用单样本t检验(One-Sample Test);如果数据呈非正态分布,可以采用相应的非参数统计方法Wilcoxon符号等级检验(Wilcoxon Signed-Rank Test)。 2.2 两组资料的分析
首先,需要判别数据为定量数据还是分类数据。如果是定量数据,数据的分布特征呈正态,则选择两样本t检验(Two-Sample Test);如果定量数据呈非正态分布,则选择Wilcoxon等级和检验(Wileoxon Rank Sum Test)。
对于分类数据,卡方检验(Chi-Square Test)被广泛运用。但值得注意的是,如果行列表中有1/5以上的格子理论频数小于5,或有飞个格子理论频数小于1,卡方检验将导致分析的偏性。此时,可以采用 Fishe's 精确概率法(Fishe's Exact Test)计算P值。 2.3 三组或以上资料的分析
与两组资料分析类似,如果数据为定量资料呈正态分布,则采用单因素方差分析(One way ANOVA);如果定量数据,呈非正态分布,则选择Kruskal一Wallis检验(Kruskal一Wallis Test)。
对于分类数据,多分类无序数据采用卡方检验(Chi-Square Test)或Fish's精确概率法;多分类有序数据可采用Cochran-Mantel-Haenszel 检验(Cochran-Mantel-Haenszel Test)。 2.4 生存分析(Analyzing Researeh Questions about Survival)
分析一段时间后生存、死亡或其它事件发生情况需要采用生存分析,例如,研究者想了解心脏移植后
病人生存天数是否与不同的手术方式有关。生存分析的目的通常是为了描述研究人群的事件发生时间(生存时间、suvival time)的分布特征,比较不同组的生存时间或研究生存时间是否与研究变量有关。 单因素生存分析可以采用Log-Rank检验(Log-Rank Test);多因素可以考虑选择比例风险模型(Cox Proportional Hazards Model)。需要注意的是,在临床研究中经常包含重复测量数据,如病人从心脏移植至死亡发生期间,重复测量了多次心功能值,对于这种资料,可以采用SAS PHREG中,重复测量资料的cox模型的运用。
2.5 相关性分析(Researeh Question Sabout Relationships among Variables)
许多临床研究涉及对一组研究对象2个连续性变量的相互关系的研究。如用2个不同的指标测定心功能,拟评价这2个指标是否一致,这就需要涉及相关(Correlation)和一致性(Agreement)的评价。 当数据为正态分布时,Pearson相关系数(Pearson's relation Coefficient)可以评价2个指标的相关性。当数据分布非正态,相应的非参数统计量为Spearman's等级相关系数(Spearman's Rank Correlation Coeffielent)以及Kendall's Tau-b等级相关系数(Kendall's Tau-b Rank Correlation Coeffielent),两者类似,但更多的统计学家推荐使用后者。
对一致性的评价,定量数据可以采用Concordance相关系数(Concordance Correlation Coeffieient),分类数据采用 Kappa分析 (Cohen's Kappa statistic)。
值得注意的是,相关性与一致性的区别。如在临床研究中,希望评价一个新的方法是否等同于原来的方法,需要使用一致性分析。
2.6 多因素分析(StatlstiealMethodSfo:MultipleVariables)
临床研究的对象常常为病人,与有严格实验条件控制的动物实验不同,除了研究的因素外,常需要控制许多混杂因素或协变量,统计分析需要采用多因素模型对协变量进行校正。统计分析软件和程序的使用为多因素分析提供了可能。根据反应变量的类型,可以采用多元线形回归(Muiriple Linear Regression)、协方差分析(ANOVA,Analysis of Covariance)以及Logistic回归(Logistic Regression)等。 2.7 重复测量数据的分析(Methods for Analyzing Repeated Measures Data) 定量数据可以采用重复测量方差分析(Repeated-Measures ANOVA)以及混合效应模型
(MixeD-effects linear Model)。对于分类数据,可以广义估算方程(Generalized Estimated Evluation,GEE)拟合Logistic模型。表1总结了常用的多因素分析方法以及选择原则以及对应的SAS步。
表1 多因素分析方法与SAS
自变量
反应变量 ----------------------------------------
连续性数据 分类数据 重复测量
计量数据(正态分布) 多元线性回归 (PROC REG) 多因素方差分析 (PROC GLE) 重复测量方差分析 (PROC MIXED) 分类数据(无序) Logistic回归 (PRCO LOGISTIC) Logistic回归 (PRCO LOGISTIC) 重复测量Logistic回归 (PRCO LOGISTIC) 分类数据(有序) 比例比Logistic回归 (PRCO LOGISTIC) 比例比Logistic回归 (PRCO LOGISTIC) 重复测量比例比 (PRCO GENMOD) 生存分析 COX回归 (PROC PHREG) Logrank/Wilcoxon Cox 回归 (PROC LIFETEST 或 PROC PHREG) 重复测量Cox回归 (SUIDAAN) 3. 小结
临床工作者花费了大量心血收集到的宝贵资料,需要有适当的统计分析和结果呈现。目前国内统计书籍中介绍的方法常常不能满足充分利用研究信息的需要。我们对各种常用统计方法的选择作了概述,实际运用时,还需要参阅相应的SAS程序。