其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界 光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围 均是常量。除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过 线性或多线性回归。分类技术也能被用来对概念分层,这是通过将低级概念上卷 到高级概念来光滑数据。
2.4 2.10 如下规范化方法的值域是什么? (a) min-max 规范化。 (b) z-score 规范化。 (c) 小数定标规范化。 解答:
(a) min-max 规范化。 值域是[new_min, new_max]。 (b) z-score 规范化。
值域是[(old _min -mean)/ σ,(old_max -mean)/σ],总的来说,对于所有可能 的数据集的值域是(-∞,+∞)。
(c) 小数定标规范化。 值域是(-1.0,1.0)。
2.5 2.12 使用习题 2.4 给出的 age 数据,回答以下问题:
(a) 使用 min-max 规范化将 age 值 35 变换到[0.0,1.0]区间。
(b) 使用 z-score 规范化变换 age 值 35,其中 age 的标准差为 12.94 岁。
(c) 使用小数定标规范化变换 age 值 35。
(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。
解答:
(a) 使用 min-max 规范化将 age 值 35 变换到[0.0,1.0]区间。
∵ min A=13,maxA=70,new _min A=0.0,new _maxA=1.0,而 v=35,
v ? min A
?v' ? new _ min A ? ? new _ min A ?new _ maxA ?
max A ? min A
?
35 ? 13
?1.0 ? 0.0 ? ? 0.0 ? 0.3860
70 ? 13
(b) 使用 z-score 规范化变换 age 值 35,其中 age 的标准差为 12.94 岁。
13 ? 15 ? 2 ? 16 ? 19 ? 2 ? 20 ? 21 ? 2 ? 22 ? 4 ? 25 A ?
27
30 ? 2 ? 33 ? 4 ? 35 ? 36 ? 40 ? 45 ? 46 ? 52 ? 70 ? 27
809 ? ? 29 .963 27 ?
?Ai ? A ?? ?? 2 2 i?1 , ? 161.2949 σ ??σ A ??σ A? 12.7002 A N
N
? A ?? ?? ?Ai ?
2 i?1 ? 167 .4986 , sA ??s 2 或 s ??A A ? 12.9421
N
N
v=35
v ? σ '
v ? A σ A 35 ? 29.963 ?5.037
? 0.3966 ? 0.400 ? ?
12.7002 12.7002
v ? A 35 ? 29.963 ?5.037
? 0.3892 ? 0.39 或 v ? ? ?s '
sA 12.9421 12.9421 ?
(c) 使用小数定标规范化变换 age 值 35。
?
v
35 由于最大的绝对值为 70,所以 j=2 。 v' ??? 0.35 ? 10 j 10 2
(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。
略。
2.6 2.14 假设 12 个销售价格记录组已经排序如下:5,10,11,13,15,35, 50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。
(a) 等频(等深)划分。 (b) 等宽划分。 (c) 聚类。 解答:
(a) 等频(等深)划分。
bin1 bin1 5,10,11,13 15,35,50,55
(b) 等宽划分。
bin1 72,91,204,215
每个区间的宽度是:(215-5)/3=70
bin1 5,10,11,13,15,35,50,55,72 bin1 bin1 (c) 聚类。
我们可以使用一种简单的聚类技术:用 2 个最大的间隙将数据分成 3 个箱。
91 204,215 bin1 5,10,11,13,15 bin1 35,50,55,72,91 bin1
204,215
2.7 2.15 使用习题 2.4 给出的 age 数据, (a) 画出一个等宽为 10 的等宽直方图;
(b) 为如下每种抽样技术勾画例子:SRSWOR,SRSWR ,聚类抽样,分层 抽样。使用大小为 5 的样本和层“青年”,“中年”和“老年”。
解答:
(a) 画出一个等宽为 10 的等宽直方图;
8
7 6 5 4
3 2 1 0
15 25 35 45 55 65
(b) 为如下每种抽样技术勾画例子:SRSWOR,SRSWR ,聚类抽样,分层 抽样。使用大小为 5 的样本和层“青年”,“中年”和“老年”。
元组:
T 1 13 T 10 22 T 19 35 T 2 15 T 11 25 T 20 35 T 3 16 T 12 25 T 21 35 T 4 16 T 13 25 T 22 36 T 5 19 T 14 25 T 23 40 T 6 20 T 15 30 T 24 45 T 7 20 T 16 33 T 25 46 T 8 21 T 17 33 T 26 52 T 9 22 T 18 35 T 27 70 SRSWOR 和 SRSWR:不是同次的随机抽样结果可以不同,但前者因无放回 所以不能有相同的元组。
SRSWOR (n=5) SRSWR (n=5) T 4 T 6 T 10 T11 T 26
16 20 22 25 52 T 7 T 7 T 20 T 21 T 25 20 20 35 35 46 聚类抽样:设起始聚类共有 6 类,可抽其中的 m 类。 Sample1 T 1 T 2 T 3 T 4 T 5 13 15 16 16 19 Sample2 T6 T7 T8 T9 T 10 20 20 21 22 22 Sample3 T 11 T 12 T 13 T 14 T 15 25 25 25 25 30 Sample4 T 16 T 17 T 18 T 19 T 20 33 33 35 35 35 Sample5 T 21 T 22 T 23 T 24 T 25 35 36 40 45 46 Sample6 T 26 T 27 52 70
Sample2
Sample5

