以及从U?R到V的信息函数f。因此,一个信息系统S可以表示为一个四元组S??U,R,V,f?。在不混淆的情况下,简记为S?(U,R),也称为知识库。
等价关系(通常用来代替分类)是不可或缺的概念,根据等价关系可以划论域中样本为等价类。而每个等价类被称为同一个对象。但是,等价关系又是建立在不可分辨概念之上的,为了便于描述这里的等价关系,我们首先介绍不可分辨性。
设
B?R为一个非空子集,如果
xi,xj?U,均有
那么,我们称xi和xj关于属性子集B不可分f(xi,r)?f(xj,r),?r?B成立,
辨。B不可分辨关系,简记为Ind(B),是一种等价关系(易验证它满足等价关系的数学公理),于是Ind(B)可以将论域U中的元素分成若干等价类,每一个等价类称为知识库的知识颗粒。全体等价类组成的集合记为U/Ind(B),称之为基本集合。若集合X可以表示成某些基本集的并时,则称X是B精确集,否则称为B粗糙集。
粗糙集中的“粗糙” 主要体现在边界域的存在,而边界又是由下、上近似来刻画的。对于任意X似分别定义为:
R_(X)?{x?U,[x]R?X},R?(x)?{x?U,[x]R?X??}。
X?U,X关于现有知识R的下、上近
的确定域Pos?X??R??X?,是指论域U中那些在现有知识R之下能够
确定地归入集合X的元素的集合。反之,Neg?X??U?R??X?被称为否定域。边界域是某种意义上论域的不确定域,即在现有知识R之下U中那些既不能肯定在X中,又不能肯定归入X
?U\\X中的元素的集合,
记为BndR?X?。
样本子集X的不确定性程度可以用粗糙度aR?X?来刻画,粗糙度的定义为:
aR?X??Card?RCard?R??X????X??
式中Card表示集合的基数(集合中元素的个数)。显然,0?aR?X??1,如果aR?X??1,则称集合X关于R是确定的;如果aR?X??1,则称集合X关于R是粗糙的,aR?X?可认为是在等价关系R下逼近集合X的精度。
为了使得上述概念具体化,下面我们举一个例子说明如何理解和计算以上相应的概念和对应量。
例. 针对一下医学信息表我们来理解前面所提到的概念。
表1 某医疗信息表
属条件属性C 性 对象 x1 决策属性D 头疼r1 是 是 是 否 否 否 肌肉疼r2 是 是 是 是 否 是 体温r3 正常 高 很高 正常 高 很高 流感 否 是 是 否 否 是 x2 x3 x4 x5 x6
依据此表,如果取属性子集R??头疼,肌肉疼???r1,r2?,X??x1,x2,x3?。 那么我们下面给出X的上近似集、下近似集、确定域、边界域、粗糙度。 解:①计算论域U的所有R基本集:U/Ind?R????x1,x2,x3?,?x4,x6?,?x5??
令 R1??x1,x2,x3?R2??x4,x6?R3??x5?
②确定样本子集X与基本集的关系
X?R1?{x1,x2}??;X?R2??;X?R3?{x5}??
③计算R?X?、R??X?、Pos?X?和Bnd?X?:
R??X??R1?R3?{x1,x2x3,x5}; R??X??R3?{x5}Pos?X??R??X??{x5}; Bnd?X??R??X??R??X??{x1,x2,x3}
④计算近似精确度:
aR?Z??Card?RCard?R??X????X???1/4?0.25
与粗糙度类似,在给出了两个知识集(特征属性)的相对肯定域的概念PosP(Q)之后,我们也可以一个量来刻画两个知识集的依赖度。设
K?(U,R)为一个知识库,
P,Q?R为两个知识集。令
k?rP(Q)?Card(PosP(Q))/Card(U),称为知识Q依赖于知识P的依赖度。
特别,当k?1时称为完全依赖;0?k?1时,部分依赖;k?0时,Q完全独立于知识P。 2.2近似空间
语言L(A)的所有可定义集正好构造成一个?代数?(U/E(A)), 即: Def(U,L(A))??(U/E(A)).。
序对apr=(U,E(A))称为一个Pawlak近似空间,简称近似空间。所
以,也可以将语言L(A)的所有可定义集记为Def(U,L(A))?Def(apr)。
通过U/E(A),可以构造一个?代数,即?(U/E(A)),它包含空集?和等价关系E(A)构成的等价类及其并,并且在交、并和补运算上是封闭的。那么,Pawlak近似空间也唯一确定了一个拓扑空间(U,?(U/E(A)))。 2.3上下近似
针对不可定义集,显然不可能构造一个公式来精确描述,只能通过上下界逼近的方式来刻画,这就是粗糙集理论中的上下近似算子。
定义2 设E(A)是信息表M上的等价关系,X?U,上下近似算子
aprE(A),aprE(A)(下文我们采用缩写形式apr,apr)定义为:
apr(X)?U{Y|Y??(U/E(A)),YIX??}?I{Y|Y?Def(U,L(A),X?Y};apr(X)?U{Y|Y??(U/E(A)),Y?X}?U{Y|Y?Def(U,L(A),Y?X}.
上近似apr(X)是包含X的最小可定义集,下近似apr(X)是包含在
X中的最大可定义集。
根据定义2,可定义集显然有相同的上下近似。刚才我们在可定
义的基础上构造了一对近似算子。也就是说,只有当对象不可定义时,才会用上下近似的方法来描述。
考虑子集X?U,论域空间将被分成三个区域: (1) 集合X的正域: POS(X)?apr(X);
(2) 集合X的负域: NEG(X)?POS(~X)?U?apr(X); (3) 集合X的边界域: BND(X)?apr(X)?apr(X).。
如果BND(X)是空集,则称集合X关于关系E(A)是清晰的(crisp);反之,如果BND(X)不是空集,则称集合X为关于关系E(A)

