2-7 考虑两个一维柯西分布的Neyman-Pearson准则:P(x|wi)?1 ?x?ai2?b1?()1bi=1,2,在0-1误差损失下,且为了简化,设a2?a1,宽度b相同,且先验概率相等。
(a) 假设当一样本实际属于w1却被误认为w2的模式分类时的最大可接受误差率为E1,用所
给变量确定判决边界。
(b) 对于此边界,将w2错分为w1的误差率是多少? (c) 在0-1损失率下的总误差率是多少?
解答:
?1??100?????2-23 考虑三维正态分布P(x|w)?N(?,?),其中???2?,???052?
?2??025?????T(a) 求点X0?(0.5,0.1)的概率密度。
(b) 构造白化变换
AW,并转换为以原点为中心协方差为单位阵的分布,即使得
p(x|w)?N(0,. IT(c) 将整个同样的过程用于点X0=(0.5,0.1)以产生一个变换点XW。
(d) 证明原分布中从X0到均值?的马氏距离与变换后分布中XW到0的马氏距离相等。 (e) 概率密度在一个一般线性变换下是否保持不变?
(f) 证明当把一个一般的白化变化应用于一个高斯分布时可保证最终分布协方差与单位阵
成比例,并检查其变换分布的归一化特性。
解答(a):由
P(x|w?)12/(2?3)?|1?(?x?21/2T|e?1?)??(X?1???其中???2?,
?2???)?100??????052??025?????1?1.???0?0?0,则将
X0?(0?.T5,,|0?|.211,)且
?00?0.?23?8,代入得打:10P(x.0|090.003052 w)??0.09?0.2381?52000?1.00000?(b)由特征值和特征向量求解得:???0?0.7071?00.7071??100??????030??007???,
?0?,0710?.70?.7071?则
Aw??1?1??0?0?.?/00?2??? ??0..=
?1.000000???0?0.40820.2673???00.40820.2673???,由于
?1.0000?1.0000?00??1???????AwT???0?0.40820.2673??2????0.2820?,则需要再做一个平移,
?0???1.3510?0.40820.2673????2???从而最终变换为X?AwTx?AwT?。
??0.5000????AwTX0?AwT???0.4082?
??0.8018???T?1?)?(X0??)=(-0.5 -2 -1)*
(c)直接代入(b)的变换得:Xw(d) 由马氏距离计算公式得:变换前的马氏距离为(X0??1.0000???0.5?00????00.2381?0.0952?2????=1.0595,变换后的马氏距离为?0???0.09520.2381?????1?XwTXw??0.5000?????0.4082???0.8018???T??0.5000???0.4082???1.0595,得证。 ??0.8018???1(e) 不一定,证明如下:
T?1?(X0??)?(X0??)1,T2若有线性变换P(X0|w)?eX?TX0,则d/21/2(2?)|?|???TT?且
???TT?T1,从而
T??1?(X0????)?(X0????)1??2 P(X0|w)?ed/2?1/2(2?)|?|=
d/2(2?)T?1?(X0??)?(X0??)12从而只有当|T|=1 时,才得证。 e1/2|?||T|1?1(f)由特征值和特征向量性质可知:?????,从而?????,又有?是正交矩
阵,则
??1=?T,则变换后的协方差矩阵为:
AwT?Aw?(???1/2)???1/2??1????1???1/2?I,显然,结合(e),只有
|AW|?|???1/2|?|??1/2|?1时变换后的分布才具有归一化特性。
3-19 假设有一组训练样本,却服从高斯分布,其协方差矩阵?已知,而均值?未知,进一步假设这个均值?本身是随机取值的,服从均值为m0协方差为?0的高斯分布。 (a) 均值?的MAP估计是什么? (b) 假设我们用线性变换来变换坐标X??AX,其中A为非奇异矩阵,那么,MAP能
够对变换以后的??做出正确的估计吗?并加以解释。
3-38 令PX(X|Wi),i=1,2为任意的概率密度函数,均值为?i,协方差矩阵为?i,其中并不要求PX(X|Wi)必须为正态概率密度。令y?WtX表示投影,并且设投影后的
2结果的概率密度函数为P(y|Wi),其均值为?i,方差为?1。
(a)证明准则函数J1(w)?(?1??2)2???21221,当W?(?1??)?(2???),取得最大值? 12(b)如果P(Wi)为Wi的先验概率,证明:J2(w)?(?1??2)2P(W1)??P(W2)?212,当
W?[P(W1?1)?P(W2?2]?1(?1??2)时,取得最大值?
(c) 在(a)和(b)之间,哪个与公式(96)的联系更密切,请解释?
4-5 证明当limKn??和limn??n??Kn?0,公式(30)收敛到P(x) n证明:由公式(30):Pn(x)?kn/nk/n等式两边对n取极限的limPn(x)?limn
n??n??VnVn因为pn(x)不等于0,而limn??Kn=0,所以limVn=0。定义样本点x落在体积为Vn的区
n??n域D中的频率为Pn,则:Pn??DP(x)dx?Kn,等式两边对n取极限,由于当n??n时,可以认为在区域D中X的概率密度函数为一个常数,因此:
limn???DP(x)dx?P(x)limn???D1dx?P(x)limVn?limn??n??kn,所以。。。。。。 n
4-17 考虑一种分类问题,总共有C个不同的类型,每一个类别的概率分布相同,并且每一
)?个类别的先验概率都是P(wi1c,证明公式(52)所给出的误差上界,
P?P?(2?cc?1?P? )证明:每一个类别的概率分布不相同,即对任意的x,P(x|wi)相等,i=1,…c 每一个类别的先验概率相等,即P(wi)?1/c,i=1,……c; 根据Bayes公式,P(wi|x)?p(x|wi)p(wi),后验概率P(wi|x)均相等,i=1,..c,
p(x)因此P(wi|x)=
1?,首先计算Bayes误差P:因为后验概率P(wi|x)均相等,因此根据c1,因此对x判别的错误率c1,然后计算最近邻分
P
:
Bayes决策准则,可以将x判别为任意的类别Wm,而P(wi|x)=
为P(e|x)?1?类
规
c1c,因此:P则
???P(e|x)p(x)dx?1?误
差
c的率
P??[1?P(Wi|x)]p(x)dx?i2?1??(1?c1c)p(x)dx?1?21c,因此在零信息
场合,最近邻分类的误差率取得其上界。
5-14 考虑平方误差和准则函数Js(a)?(atyi?bi)令bi?i?1n2?b取得如下6个训练点:
tttttt,?4),(2,9),(?5,?3)。W2:(2,?3),(?1,(0,2) W1:(1,5)(a) 计算它的豪森矩阵。(b)假定二次准则函数,计算最优学习效率?
5-32 考虑支持向量机和分属两类的训练样本,W1:(1,1),(2,2),(2,0);W2:(0,0),(1,0),
t,(a) 在图中做出这6个训练点,构造具有最优超平面和最优间隔的权向量。 (0,1)ttttt(b) 哪些是支持向量?(c) 通过寻找拉格朗日待定乘数ai来构造在对偶空间的解,并将它与
(a)中的结果比较。
6-5 用文字解释,为什么训练输入层到隐含层权值的反向传播规则可通过考虑对式(21)中各项的依赖性而具有很直观的意义?
6-8 考虑具有d个输入单元nH个隐单元,C个输出单元以及偏置的一个标准三层反向传播网。
(a) 网络中有多少权值?
(b) 考虑权值对称,特别是证明如果将每一个权值的符号反向,网络功能不变?
(c) 现在考虑隐单元的对称交换,隐单元上没有标记,因此他们可以相互交换而使网络功能
不受影响。证明该等价标记数一对称交换因子一位nH2nH,在nH?10的情况下估计该因子的值。

