获得信息量=两熵之差。 例2.3(P25) 例2.4(P25)
2.3 信息熵的基本性质
信息熵——信源概率空间的一种特殊的矩函数。
,?,aq??X??a1,a2,?P(x)???P(a),P(a),?,P(a)? ???12q??q给定时,信源的信息熵为概率分布P(x)的函数。
概率矢量P?(P(a1),P(a2),?,P(aq))?(p1,p2,?,pq) 满足
qq?pi?1qi?1、pi?0
H(X)???P(ai)logP(ai)???pilogpi?H(p1,p2,?,pq)?H(P)——熵函数
i?1i?1熵函数性质: 1、对称性
H(p1,p2,?,pq)?H(p2,p3,?,pq,p1)???H(pq,p1,?,pq?1)
熵只与随机变量的总体结构有关,即与信源的总体的统计特性(含有的符号数、概率分布)有关。 局限性:不能描述事件本身的具体含义和主观价值等。 2、确定性
H(1,0)?H(1,0,0)?H(1,0,0,0)???(H(1,0,?,0)?0
P?(p1,p2,?,pq)中,当pi?1时,pilogpi?0,对于其余分量pj?0(j?i),
pj?0limpjlogpj?0([logpi1pi]??1pjln2?1p2j??pjln2)
确知信源的熵为零。
3、非负性
H(P)?H(p1,p2,?,pq)???pilogpi?0(0?pi?1,logpi?0)
i?1q(例外,连续信源,这一性质不存在。相对熵,可能出现负值。) 4、扩展性
limHq?1(p1,p2,?,pq??,?)?Hq(p1,p2,?,pq)
??0(lim?log??0)
??0说明:信源的取值数增多时,若这些取值对应的概率很小(接近于零),则信源熵不变。 5、可加性
8
统计独立信源X和Y的联合信源的熵等于分别熵之和。
X——(p1,p2,?,pn),Y——(q1,q2,?,qm)
H(XY)?H(X)?H(Y)
即Hnm(p1q1,p1q2,?,p1qm,p2q1,?p2qm,pnq1,?pnqm)
?H(p1,p2,?,pn)?H(q1,q2,?,qm)
?pi?1ni?1,?qj?1,??piqj?1
j?1i?1j?1mnm证明:Hnm(p1q1,p1q2,?,p1qm,p2q1,?p2qm,pnq1,?pnqm) ????pqii?1j?1nmjlogpiqj????piqjlogpi???piqjlogqj
i?1j?1i?1j?1nmnm ???q(?plogp)??p(?qjiiij?1ni?1i?1j?1mnnmjlogqj)
???plogp??qiii?1j?1mjlogqj
?H(p1,p2,?,pn)?H(q1,q2,?,qm)
6、强可加性
两个相互关联的信源X和Y的联合信源的熵等于信源X的熵加上在X已知条件下信源Y的条件熵。
关联:P(Y?yj|X?xi)?pij 0?pij?1 (i?1,2,?,n)(j?1,2,?,m)
H(XY)?H(X)?H(Y|X)
Hnm(p1p11,p1p12,?,p1p1m,p2p21,?p2p2m,pnpn1,?pnpnm)
?Hn(p1,p2,?,pn)?nnm?pHii?1nm(pi1,pi2,?,pim)
?pi?1mi?1,??pipij?1,?pipij?qj ?
i?1j?1ni?1?pj?1mij?1
m(
?pp??p(X?x,Y?yiijij?1j?`mj)?P(X?xi)?pi?pi?pij?pi)
j?1 9
证明:Hnm????ppii?1j?1nmnmijlogpipij
nm????pipijlogpi???pipijlogpij
i?1j?1i?1j?1???(?pij)pilogpi??pi?pijlogpij
i?1nj?1i?1mj?1nmnm ???plogp??p(??piiii?1i?1j?1nijlogpij)
?Hn(p1,p2,?,pn)??piHm(pi1,pi2,?,pim)
i?1nHm(pi1,pi2,?,pim)???pijlogpij?H(Y|X?xi)
j?1m?pHii?1nm(pi1,pi2,?,pim)??piH(Y|X?xi)?H(Y|X)
i?1n7、递增性
Hn?m?1(p1,p2,?,pn?1,q1,q2,?qm)
mnqmq1q2?Hn(p1,p2,?,pn?1,pn)?pnHm(,,?,) (?pi?1,?qj?pn)
pnpnpnj?1i?1证明:Hn?m?1(p1,p2,?,pn?1,q1,q2,?qm) ???plogp??qiii?1nj?1n?1mjlogqj
m ???plogpii?1i?pnlogpn??qjlogqj
j?1 ?Hn(p1,p2,?,pn?1,pn)?logpn?m?q??qjj?1j?1mmjlogqj
?Hn(p1,p2,?,pn?1,pn)??qj?1jlogqjnqjpnlog
?Hn(p1,p2,?,pn?1,pn)?pn?pj?1mqjpn
10
qqq?H1n(p1,p2,?,pn?1,pn)?pnHm(p,2p,?,m) nnpn进一步分析,见P32 例2.4(P33) 8、极值性
H(pp1111,2,?,pn)?H(n,n,?,n)?logn
——最大离散熵定理
补充:
1、上凸函数的基本知识
设f(x)是实变量x的实值连续函数,如对定义域中的任何x1和x2,f(x1?x2f(x1)?2)?f(x2)2 f(x2) 则称f(x)是上凸函数
f(x1) (上凸函数的任何弦均位于函数图形之下) x1 x2 设?x?[x1,x2],则?0???1 使得x??xx1?(1??)x2 (??2?xxx)不同的?值表示[x1,x2]间不同的值
2?1f(x)?f(?xf(x1?(1??)x2) 2) f(x) h(x)?f(xh(x) 1)??x
f(x1) ?x x?f(x?(x?xf(x2)?f(x1)1 x x2 1)1)x
2?x1??f(x1)?(1??)f(x2)
f(x)?h(x)
f(?x1?(1??)x2)??f(x1)?(1??)f(x2)
n推广到统计平均值的范畴,令m1,m2,?,mn为任意整数,且?mi?n
i?1有f(m1x1?m2x2???mnxnn)?1n{m1f(x1)?m2f(x2)???mnf(xn)}
令pmnii?n,?pi?1
i?1 11
满足不等式

