模式识别清华 课件第二章 - 图文

2026/4/25 21:44:52

第二章 贝叶斯决策理论与统计判别方法

学习指南

这一章的主要内容是说明分类识别中为什么会有错分类,在何种情况下会出现错分类?错分类的可能性会有多大?在理论上指明了怎样才能使错分类最少?另一方面,错分类有不同情况,例如误将A错分为B类,或将B类错分为A类就是两种不同的错误。不同的错分类造成的危害是不同的,有的错分类种类造成的危害更大,因此控制这种错分类则是更重要的。为此引入了一种“风险”与“损失”概念,希望做到使风险最小。要着重理解“风险”与“损失”的概念,以及在引入“风险”概念后的处理方法。

理解这一章的关键是要正确理解先验概率,类概率密度函数,后验概率这三种概率,对这三种概率的定义,相互关系要搞得清清楚楚。Bayes公式正是体现这三者关系的式子,要透彻掌握。

本章讨论的内容在理论上有指导意义,代表了基于统计参数这一类的分类器设计方法,结合正态分布这一例子的目的是使分类器设计更加具体化。学习这一章还要体会模式识别算法的设计都是强调“最佳”与“最优”,即希望所设计的系统在性能上最优。这种最优是指对某一种设计原则讲的,这种原则称为准则。使这些准则达到最优,如最小错误率准则,基于最小风险准则等。设计准则,并使该准则达到最优的条件是设计模式识别系统最基本的方法。

课前思考

1、 机器自动识别分类,能不能避免错分类,如汉字识别能不能做到百分之百正确?怎样才能减少错误?

2、 错分类往往难以避免,因此就要考虑减小因错分类造成的危害损失,譬如对病理切片进行分析,有可能将正确切片误判为癌症切片,反过来也可能将癌症病人误判为正常人,这两种错误造成的损失一样吗?看来后一种错误更可怕,那么有没有可能对后一种错误严格控制? 3、 概率论中讲的先验概率,后验概率与概率密度函数等概念还记得吗?什么是贝叶斯公式? 4、 什么叫正态分布?什么叫期望值?什么叫方差?为什么说正态分布是最重要的分布之一?

学习目标

这一章是模式识别的重要理论基础,它用概率论的概念分析造成错分类和识别错误的根源,并说明与哪些量有关系。在这个基础上指出了什么条件下能使错误率最小。有时不同的错误分类造成的损失会不相同,因此如果错分类不可避免,那么有没有可能对危害大的错分类实行控制。对于这两方面的概念要求理解透彻。 这一章会将分类与计算某种函数联系起来,并在此基础上定义了一些术语,如判别函数、决策面(分界面),决策域等,要正确掌握其含义。

这一章会涉及设计一个分类器的最基本方法——设计准则函数,并使所设计的分类器达到准则函数的极值,即最优解,要理解这一最基本的做法。这一章会开始涉及一些具体的计算,公式推导、证明等,应通过学习提高这方面的理解能力,并通过习题、思考题提高自己这方面的能力。

本章要点

1、 机器自动识别出现错分类的条件,错分类的可能性如何计算,如何实现使错分类出

现可能性最小——基于最小错误率的Bayes决策理论

2、 如何减小危害大的错分类情况——基于最小错误风险的Bayes决策理论 3、 模式识别的基本计算框架——制定准则函数,实现准则函数极值化的分类器设计方法

4、 正态分布条件下的分类器设计

5、 判别函数、决策面、决策方程等术语的概念

6、 Bayes决策理论的理论意义与在实践中所遇到的困难

难点

1、 三种概率:先验概率、类概率密度函数、后验概率的定义 2、 三种概率之间的关系——Bayes公式

3、 描述随机变量分布的一些定义,如期望值、方差、尤其是协方差、协方差矩阵,其定义、计算方法及内在含义,透彻掌握其含义才会做到灵活运用。 知识点

§2.1 引 言

在描述本章所要讨论的问题之前,再提一下对于待识别的物理对象的描述问题。假设一个待识别的物理对象用其d个属性观察值描述,称之为d个特征,这组成一个d维的特征向量,而这d维待征所有可能的取值范围则组成了一个d维的特征空间。 为了说明这句话,我们讨论一个具体的例子。假设苹果的直径尺寸限定在7厘米到15厘米之间,它们的重量在3两到8两之间变化。如果直径长度x用厘米为单位,重量y以两为单位。那么,由x值从7到15,y值从3到8包围的二维空间就是对苹果进行度量的特征空间。 贝叶斯决策理论方法所讨论的问题是:已知总共有c类物体,也就是说待识别物体属于这c类中的一个类别,对这c类不同的物理对象,以及各类在这d维特征空间的统计分布,具体说来是各类别ωi=1,2,?,c的先验概率P(ωi)及类条件概率密度函数p(x|ωi)已知的条件下,如何对某一样本按其特征向量分类的问题。由于属于不同类的待识别对象存在着呈现相同观察值的可能,即所观察到的某一样本的特征向量为X,而在c类中又有不止一类可能呈现这一X值,这种可能性可用P(ωi|X)表示。如何作出合理的判决就是贝叶斯决策理论所要讨论的问题。下一节讨论几种常用的决策规则,接着要分析正态分布时统计决策的问题以及错误概率等问题。由于这种决策理论基于已知概率分布为前提,因此在本章还要讨论概念密度函数的估计问题。 上一章提到机器实现自动分类有两大类方法:一种是模板匹配方法,而另一种就是对特征空间划分为子空间(每类的势力范围)的方法。本章是针对第二种方法的。核心问题是:样本为特征向量X时,它属于哪一类可能性有多大,如能确定属于各个类别的百分比(概率)分类决策就有了依据。例如某个样本的特征向量为X,X属于第一类样本的可能性为60%,而第二类的可能性为40%。在没有任何样本信息的情况下,则应将样本决策为第一类以使错分类可能性小(40%),这就是这一章考虑分类问题的出发点。


模式识别清华 课件第二章 - 图文.doc 将本文的Word文档下载到电脑
搜索更多关于: 模式识别清华 课件第二章 - 图文 的文档
相关推荐
相关阅读
× 游客快捷下载通道(下载后可以自由复制和排版)

下载本文档需要支付 10

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219