上面我们讨论了使错误率最小的贝叶斯决策规则。然而当接触到实际问题时,可以发现使错误率最小并不一定是一个普遍适用的最佳选择。
譬如,在上面讨论过的细胞分类的例子中,把正常细胞错分为癌细胞,或相反方向的错误,其严重性是截然不同的。把正常细胞误判为异常细胞固然会给人带来不必要的痛苦,但若将癌细胞误判为正常细胞,则会使病人因失去及早治疗的机会而遭受极大的损失。
由此可见,根据不同性质的错误会引起不同程度的损失这一考虑出发,我们宁肯扩大一些总的错误率,但也要使总的损失减少。这会引进一个与损失有关联的,更为广泛的概念——风险。在作出决策时,要考虑所承担的风险。基于最小风险的贝叶斯决策规则正是为了体现这一点而产生的。
在讨论基于风险的决策方法的具体内容之前,让我们首先回顾一下上一节讨论的基于最小错误概率的决策方法。从式(2-10)可以看出,在分类时所作的判决(称之为决策)单纯取决于观测值X对各类(也称自然状态)的后验概率中之最大值,因而也就无法估计作出错误决策所带来的损失。为此不妨将作出判决的依据从单纯考虑后验概率最大值,改为对该观测值X条件下各状态后验概率求加权和的方式,表示成
其中
(2-13)
表示观测样本X实属类别j,而被判为状态i时所造成的损失,
Ri则表示了观测值X被判为i类时损失的均值。如果我们希望尽可能避免将某状态ωj,错判为状态ωi,则可将相应的
值选择得大些,以表明损失的严重性。加
权和Ri用来衡量观测样本X被判为状态ωi所需承担的风险。而究竟将X判为何类则应依据所有Ri,(i=1,…,c)中的最小值,即最小风险来定。
我们再从另一角度把这个问题说清楚。我们见到一个病理切片X,要确定其中有没有癌细胞(用ω1表示正常,ω2表示异常),则P(ω1|X)与P(ω2|X)分别表示了两种可能性的大小。如果X确实是癌细胞(ω2),但被判作正常(ω1),则会有损失,这种损失用则损失表示成
表示,X确实是正常(ω1),却被判定为异常(ω2),
与
是指都有关,
,另外为了使式子写的更方便,我们也可以定义
以及
正确判断也可有的损失。那么把X判作ω1引进的损失应该与
哪一个占主要成分,则取决于P(ω1|X)与P(ω2|X)。因此变成了一个加权和
同样将X判为ω2的风险就成为
此时作出哪一种决策就要看是R1(X)小还是R2(X)小了,这就是基于最小风险的贝叶斯决策的基本出发点。有关该例的数值例子在例2.2。
以上讨论是为了说明这种方法的概念。下面我们给出一些确切的定义。
(1)自然状态与状态空间。其中自然状态是指待识别对象的类别,而状态空间Ω则是由所有自然状态所组成的空间,
Ω={ω1,ω2,…,ωc}
(2)决策与决策空间。在决策论中,对分类问题所作的判决,称之为决策,由所有决策组成的空间称为决策空间。决策不仅包括根据观测值将样本划归哪一类别(状态),还可包括其它决策,如“拒绝”等,因此决策空间内决策总数a可以不等于类别数c,表示成
(3)损失函数λ(αi|ωj)(或写成λ(αi,ωj))。这就是前面我们引用过的
。它明确表示对自然状态ωj,作出决策αi时所造成的损失。 (4)观测值X条件下的期望损失R(αi|X),
(2-14)
这就是前面引用的符号Ri,也称为条件风险。
与式(2-10)类似,最小风险贝叶斯决策规则可写成:
如果
,则α=αk (2-15)
,i=1,2,…,a
但与(2-10)式不同的是,这里计算的是最小值。
与上一小节中基于最小错误概率的决策方法中所引用的平均错误率P(e)相类似,在这里引入一个期望风险R,
(2-16)
它表示对所有X取值所作的决策α(X)所带来的平均风险。与上一节证明基于最小错误概率的贝叶斯决策方法相类似,当所采取的每一个决策都使其条件风险最小,则对所有的X所作的决策,其期望风险也必然最小。
对于实际问题,最小风险贝叶斯决策可按下列步骤进行:
(1)在已知P(ωi),P(X|ωi),i=1,…,c及给出待识别的X的情况下,根据贝叶斯公式计算出后验概率:
j=1,…,x (2)利用计算出的后验概率及决策表,按式(2-14)计算出采取αi,i=1,…,a的条件风险
,i=1,2,…,a
(3)对(2)中得到的a个条件风险值R(αi|X),i=1,…,a进行比较,找出使条件风险最小的决策αk,即
则αk就是最小风险贝叶斯决策。
例2.2
在例2.1条件的基础上,并且已知λ11=0,(λ11表示λ(α1|ω1)的简写),λ12=6,λ21=1,λ22=0,按最小风险贝叶斯决策进行分类。 解:已知条件为
P(ω1)=0.9, P(ω12)=0.1
p(X|ω1)=0.2, p(X|ω12)=0.r λ11=0, λ12=6, λ21=1, λ22=0 根据2.1的计算结果可知后验概率为 P(ω1|X)=0.818, P(ω12|X)=0.182 再按式(2-14)计算出条件风险
由于R(α1|X)>R(α2|X)
即决策为ω12的条件风险小于决策为ω1的条件风险,因此应采取决策行动α2,即判待识别的细胞X为ω12类——异常细胞。
将本例与例2.1相对比,其分类结果正好相反,这是因为影响决策结果的因素又多了一个“损失”。由于两类错误决策所造成的损失相差很悬殊,因此“损失”在这里起了主导作用。
从以上讨论可以看出,正确制订损失函数值,是基于最小风险的贝叶斯决策方法在实际中使用的一个关键问题。而实际中列出合适的决策表并不是一件容易的事,需根据所研究的具体问题,分析错误决策造成损失的严重程度,与有关专家共同商讨来确定。
最后我们再讨论一下上面两种决策方法之间的关系,设损失函数为
, (2-17)
式中假定对C类只有C个决策,即不考虑“拒绝”等其它情况,(2-17)表明,当作出正确决策(即i=j)时没有损失,而对于任何错误决策,其损失均为1。这样定义的损失函数称为0—1损失函数。 根据(2-14)式条件风险为
(2-18)
而也恰恰是将X判为ω1i时的错误概率。因此基于最小风险的
贝叶斯决策结果,在0—1损失函数情况下,也就是基于最小错误概率的贝叶斯决策结果。由此可见,最小错误率贝叶斯决策就是在0—1损失函数条件下的最小风险贝叶斯决策。换句话说,前者是后者的特例。
实际上,因此,当
它与基于最小错误率的贝叶斯决策的判据是一样的。
最大时 最小。
如果我们只考虑两类别问题,并只有一维特征向量的情况,我们可以画出一张与图2.3类似的图2.4,用来表示最小风险贝叶斯决策方法的分类结果。与图2.3不同的是,R1与R2两个区域的分界线不再是t,而是向左移了一段距离,这是由于损失函数λ12比λ21大所造成(可以假设λ11=λ22=0),在发生位移这一区域内,尽管P(x|ω1)P(ω1)>P(x|ω12)P(ω12),但是为了减少将ω12错判为ω1所带来的严重损失,在P(x|ω12)P(ω12)尚不很小的情况下,使将ω12类样本错判为ω1的可能性减小,以减小决策所承担的风险。当然平均错误率则明显增大了。
(2-13)式定义了样本为X作出i决策时的期望风险,可以从两个方面理解。一种是由于样本存在分属各类的可能性,而对实属一类却决策成i类会造成程度

