发病人数其它382010200920082007050001000013242150002000025000100031905519585
图5 脑卒中患者按年的统计人数分布
从上图可以看出,附件总数据为61923条,但2007~2010间有效的数据为61885条,本文做的统计描述均是针对2007~2010期间内。
按月份对发病人数进行统计,得到发病人数统计表如表4所示。
表4 2007~2010年各月患病人数统计表 月份 1 2 3 4 5 6 7 8 9 10 11 12 07年发病人数 935 732 1019 1069 1072 1032 1014 1197 1221 1374 1208 1369 08年发病人数 1827 1961 1918 1758 1776 1517 1500 1366 1272 1461 1378 1321
2007-2010年总发病人数6000500009年发病人数 872 848 830 860 876 793 931 934 829 759 664 807 10年发病人数 1760 1487 1724 1699 1882 1610 1757 1680 1632 1718 1565 1071 2007-2010年总发病人数 5394 5028 5491 5386 5606 4952 5202 5177 4954 5312 4815 4568 患病人数/人400030002000100001234567月份/月89101112
图6 2007-2010年总发病人数随月份的变化曲线
从2007~2010年逐年脑卒中发病人数的月分布发现,该病以春节多发,高峰出现在3~
9
5月,1月为次高峰,6~9月发病较为平缓,12月出现低谷期。由此可见发病存在一定的季节差异,脑卒中春季高于其他季节,而夏、秋、冬三季发病差异不大。
利用EXCEL中的“COUNTIFS”函数对脑卒中病例数据进行多重筛选统计患者数量,得到2007~2010四年每天的发病人数,其曲线如图7所示。
图7 2007-2010年总发病人数随天的变化曲线
根据式(1)求出2007~2010四年内每天的发病率,其发病率随时间的变化曲线如图8所示。
图8 2007-2010年发病率随天的变化曲线
从图7和图8可以看出,2007~2010四年内每天发病人数变化不大,每天的发病率基本保持不变。但是如果按天进行统计分析,每天的随机误差容易对结果造成影响,再每月的均值作为统计对象进行分析,四年内每月的发病率百分比曲线如图9所示。
图9 2007-2010年发病率随月的变化曲线
10
从图9可以看出,月发病率随时间呈周期性波动,具有一定的季节性。
4.1.2.5 重要结论
(1) (2) (3) (4) (5)
脑卒中的发病有年集中趋势,更呈增长趋势;
发病存在时间差异,春节为高发季,1月为高峰月; 患者人数男性多于女性,性别比重为1.17:1;
工作性质对脑卒中发病有直接影响,农民为高危职业;
脑卒中发病处于老年阶段,集中年龄段为71~80,且逐年呈年轻化发展。
4.2 针对问题二的模型建立及求解
由问题分析可知,问题二属于一个多元统计分析模型,目标是研究因变量发病率与自变量温度(包括平均温度、最高温度、最低温度、温度差)、湿度(包括平均湿度、最低湿度)、气压(平均气压、最高气压、最低气压、气压差)之间的关系,本文主要从多元线性或非线性回归模型上进行分析。
4.2.1 数据归纳与统计
附件(Appendix-C2)中的数据已经给出了2007-2010年每天对应的气象数据,可以在这基础上对气象数据进行进一步细化:
(1)计算每天的气压差与温差,最终得到2007~2010年期间每一天的气象特征信息——平均气压、最高气压、最低气压、气压差、平均温度、最高温度、最低温度、温度差、平均湿度、最低湿度等10个特征变量;
(2)按月份统计所有数据中每月的最大值及最小值情况。
最后将第一问进行统计出的发病率情况与气象数据信息进行一一关联,得到最终待分析的数据集,其数据形式如表5所示。
表5 数据归纳统计形式
按天统计 发病人数 发病率千分比 平均气压 最高气压 最低气压 平均温度 最高温度 最低温度 6 平均湿度 86 84 86 82 84 最低湿度 71 73 77 78 76 气压差 温度差 时间 发病率 2007/1/1 98 0.007401 7.40069476 1025.1 1028.5 1023.3 8.1 9.9 7.4 2007/1/2 32 0.002417 2.41655339 1025.2 1026.7 1023.5 6.5 7.4 2007/1/3 33 0.002492 2.49207068 1026.1 1027.8 1025.1 2007/1/5 34 0.002568 2.56758798 1027.1 1029 1025.2 5 5 6.9 4.2 6.5 4.3 5.2 2.5 3.2 1.4 2.7 2.7 3.5 3.2 3.8 2.2 2007/1/4 36 0.002719 2.71862256 1027.1 1029.2 1025.7 5.9 7.4 4.2 4.2.2 多元回归分析过程
多元回归分析包括多元线性回归及多元非线性回归,判断方法主要通过绘制因变量与各个自变量之间的散点图,首先直观分析因变量与自变量的关系,如果从散点图可以看出明显
11
的线性关系,那么可以考虑通过多元线性回归进行分析;如果从散点图并不能发现明显的线性规律,可能是呈非线性,也可能是多个自变量之间的耦合关系的影响,需要进一步分析才能决定。
4.2.2.1 多元线性回归数学模型
若依变数Y同时受到m个自变数X1、X2、…、Xm的影响,且这m个自变数皆与Y成线性关系,则这m+1个变数的关系就形成m元线性回归。因此,一个m元线性回归总体的线性模型为:
Yj??0X0??1X1j??2X2j????mXmj??j 式(2)
2其中,?j~N(0,??)。相应的,一个m元线性回归的样本观察值组成为:
yj?b0?b1x1j?b2x2j???bmxmj?ej 式(3)
在一个具有n组观察值的样本中,第j组观察值(j=1,2,…,n)可表示为(x1j,x2j,…,xmj,yj),便是M=(m+1)维空间中的一个点。
同理,一个m元线性回归方程可给定为:
??b0?b1x1?b2x2???bmxm 式(4) y式(3)中,b0是x1、x2、…、xm都为0时y的点估计值;b1是by1·23…m的简写,它是在x2,x3,…,xm皆保持一定时,x1每增加一个单位对y的效应,称为x2,x3,…,xm不变(取常量)时x1对y的偏回归系数(partial regression coefficient);b2是by2·13…m的简写,它是在x1,x3,…,xm皆保持一定时,x2每增加一个单位对y的效应,称为x1,x3,…,xm不变(取常量)时x2对y的偏回归系数;依此类推,b3是x3对y的偏回归系数;……;bm是xm对y的偏回归系数。
在多元回归系统中,b0一般很难确定其专业意义,它仅是调节回归响应面的一个参数;
?则是这些各自效应的bi(i=1,2,…,m)表示了各个自变数xi对依变数y的各自效应,而y集合,代表着所有自变数对依变数的综合效应。
多元线性回归模型的求解可以直接通过SPSS软件和MATLAB相应的工具求解。
4.2.2.2 按天的数据分析
显然,本文中的因变量Y为脑卒中发病人数或发病率或发病率千分比,自变量X有平均气压、最高气压、最低气压、气压差、平均温度、最高温度、最低温度、温度差、平均湿度、最低湿度等10个变量,首先按照每天的统计数据进行多元线性回归分析。
(1)观测发病率与自变量的散点图
以平均气压为例,绘制发病率千分比与平均气压的散点图如图10所示。
图10 2007-2010年每天发病率千分比与平均气压间的散点图
12

