【例9】 某单位200名职工的年龄分布情况如图,现要从中抽取40名职工作样本,用系统抽样法,将全体
196~200号)职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,.若
第5组抽出的号码为22,则第8组抽出的号码应是 .若用分层抽样方法,则40岁以下年龄段应抽取______人.
50岁以上20P0@岁以下40-50岁
用样本估计总体
一、 用样本的频率分布估计总体的频率分布
1. 频率分布直方图
(1)列出样本数据的频率分布表和频率分布直方图的步骤:
①计算极差:找出数据的最大值与最小值,计算它们的差; ②决定组距与组数:取组距,用
极差决定组数; 组距③决定分点:决定起点,进行分组;
④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.
⑤绘制频率分布直方图:以数据的值为横坐标,以(2)易知小长方形的面积=组距×频率的值为纵坐标绘制直方图。 组距频率=频率;所有长方形的面积之和等于1; 组距(3)频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布
折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.
(4)总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直
方图可以用一条光滑曲线y?f(x)来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律. 2. 茎叶图
(1)制作茎叶图的步骤:
①将数据分为“茎”、“叶”两部分;
Page 5 of 18
②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出. (2)茎叶图的优点:
①没有原始信息的损失,所有的数据信息都可以从茎叶图中得到; ②茎叶图可以在比赛时随时记录,方便记录与表示
二、用样本的数字特征估计总体的数字特征
1. 用样本的平均数估计总体平均数
(1)众数:在样本数据中,出现次数最多的那个数据;
(2)中位数:将样本数据按大小顺序排列,若数据的个数为奇数,则最中间的数据为中位数,若样
本数据个数为偶数,则取中间两个数据的平均数作为中位数。
x2,,xn,则样本的算术平均数为x?(3)平均数:一般地,设样本的数据为x1,(4)众数、中位数、平均数的异同:
x1?x2?n?xn;
①众数、中位数、平均数都是描述一组数据集中趋势的量,平均数是最重要的量;
②平均数的大小与一组数据里每个数据均有关系,任何一个数据的变动都会引起平均数的变动; ③众数考察各数据出现的频率,大小只与这组数据中的部分数据有关,当一组数据中有不少数据多次重复出现时,众数往往更能反映问题;
④中位数仅与数据的排列位置有关,某些数据的变动对中位数没有影响,中位数可能出现在所给数据中,也可能不在所给数据中,当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势;
⑤实际问题中求得的平均数、众数和中位数应带上单位。 (5)平均数相关结论:
①如果两组数x1,x2,,xn和y1,y2,,yn的平均数分别是x和y,则一组数x1?y1,x2?y2,,xn?yn的平均数是x?y; ②如果一组数x1,x2,③如果一组数x1,x2,,xn的平均数为x,则一组数kx1,kx2,,kxn的平均数为kx。
,xn?a的平均数为x?a
,xn的平均数为x,则一组数x1?a,x2?a,2. 用样本的标准差估计总体的标准差
(1)数据的离散程度可以用极差、方差或标准差来描述;
(2)极差(又叫全距)是一组数据的最大值和最小值之差,反映一组数据的变动幅度; (3)样本方差描述了一组数据围绕平均数波动的大小;
x2,,xn,样本的平均数为x, 一般地,设样本的数据为x1,(x1?x)2?(x2?x)2?定义样本方差为s?n2?(xn?x)2;
12简化公式:s2?[(x12?x2?n
2?xn)?nx2]
Page 6 of 18
12=(x12?x2?n2?xn)?x2(方差等于原数据平方的平均数减去平均数的平方)
(4)样本的标准差是方差的算术平方根.
(x1?x)2?(x2?x)2?样本标准差s?n?(xn?x)2。
(5)方差相关结论: ①如果一组数x1,x2,②如果一组数x1,x2,,xn的方差为s2,则一组数x1?a,x2?a,,xn的方差为s2,则一组数kx1,kx2,,xn?a的方差为s2;
,kxn的方差为k2s2。
Page 7 of 18
1.频率分布直方图
【例1】 已知一个样本容量为100的样本数据的频率分布直方图如图所示,样本数据落在[6,10)内的样本
频数为 ,样本数据落在[2,10)内的频率为 .
【例2】 从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).由
图中数据可知a? .若要从身高在?120,130?,?130,140?,?140,150?三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在?140,150?内的学生中选取的人数应为 .
【例3】 一个容量为100的样本,其数据的分组与各组的频数如下:
组别 频数 10? ?0,?10,20? ?20,30? ?30,40? ?40,50? ?50,60? ?60,70? 13 12 24 15 16 13 7 则样本数据落在?10,40?上的频率为( ) A.0.13
B.0.39
C.0.52
D.0.64
2. 茎叶图
【例4】 甲、乙两名运动员的5次测试成绩如下图所示
甲77862乙6836789
设s1,s2分别表示甲、乙两名运动员测试成绩的标准差,x1,x2分别表示甲、乙两名运动员测试成绩的平均数,则有( )
A.x1?x2,s1?s2 B.x1?x2,s1?s2 C.x1?x2,s1?s2 D.x1?x2,s1?s2
Page 8 of 18