第四百七十八章平均信息量

如果随机变量X是在S={1，2，…，M}里取值，那么可以证明，熵值H(X)的取值必定在0和logM之间。当随机变量X在S上均匀分布的时候，H(X)取最大值logM；当X以百分之百的概率取S中的某个数值的时候，H(X)取最小值0。前者对应于“不确定性”最大的X，而后者对应于“不确定性”最小的（即完全可以确定的）X。所以，也可以把熵值H(X)理解为对随机变量X的“不确定性“（或“不可预测性”）的度量。

因此，随机变量所包含的“信息量”和它的“不确定性”其实是同一个概念。一个随机变量越难以确定，它所包含的信息量越多。这种认识对初次接触熵的人来说或许不够自然。但仔细体会一下，确实是有道理的。如果俺想告诉你的事你很容易猜到，或者说你不用问几个问题就能知道，那俺要说的话对你来说就没多少信息量。

在熵的定义里－logP(a)又是什么物理意义呢？当然这个数字可以理解为a编码所需要的比特数（在前面例子里，我们能看到以1/8概率出现的事件，需要用3个比特来编码）。换一个角度理解，－logP(a)可以理解为a的“惊奇度”。一个出现概率极低的事件a，比如世界末日，它一旦出现就会令人非常惊奇，所以对应的－logP(a)就会很大；而如果a出现的概率很大，它的出现就不会太令人吃惊，所以对应的－logP(a)就会很小。因此，熵值H(X)也可以理解为随机变量X的“平均惊奇度”。

【在阅读模式下不能自动加载下一页，请<退出阅读模式>后点击下一页阅读。】guwo.org 风云小说网

第四百七十八章 平均信息量

第四百七十八章平均信息量