机器学习--互信息(mutual information)的理解

再做特征提取是时,那些特征重要,那些不重要呢?怎么确定那个自变量与因变量之间的相关性大小呢?三种方法:

  1. 逻辑回归中,权重大的特征自然就是相关性大的变量。
  2. person相关系数
  3. 互信息

转自互信息的理解
我们在之前研究过两个随机变量的独立性,我们定义若两个随机变量$X,Y$满足
$$P(X,Y)=P(X)P(Y)$$
则我们说随机变量$X,Y$独立。下面来直观地理解这个公式,可以发现,如果$X,Y$独立,那么已知$X$,将不会对$Y$的分布产生任何影响,即是说$P(Y)=P(Y|X)$,这个结果的证明也很简单,由贝叶斯公式:
$$P(Y|X)=\frac{P(X,Y)}{P(X)}=\frac{P(X)P(Y)}{P(X)}=P(Y)$$
即证。

由此可以看出,独立性反应了已知$X$的情况下,$Y$的分布是否会改变,或者说,在给定随机变量$X$之后,能否为$Y$带来额外的信息。然而独立性只能表示出两个随机变量之间是否会有关系,但是却不能刻画他们的关系大小。下面我们引入互信息,它不仅能说明两个随机变量之间是否有关系,也能反应他们之间关系的强弱。我们定义互信息$I(X,Y)$:
$$I(X;Y)=\int_X \int_Y P(X,Y)\log\frac{P(X,Y)}{P(X)P(Y)}$$

我们来稍微理解一下,log里面就是$X,Y$的联合分布和边际分布的比值,如果对所有$X,Y$,该值等于1,即是说他们独立的情况下,互信息$I(X;Y)=0$,即是说这两个随机变量引入其中一个,并不能对另一个带来任何信息,下面我们来稍稍对该式做一个变形
$$\begin{aligned}
I(X;Y)&=\int_X \int_Y P(X,Y)\log\frac{P(X,Y)}{P(X)P(Y)}\
&=\int_X \int_Y P(X,Y)\log\frac{P(X,Y)}{P(X)}-\int_X \int_Y P(X,Y)\log{P(Y)}\
&=\int_X \int_Y P(X)P(Y|X)\log P(Y|X) -\int_Y \log{P(Y)}\int_X P(X,Y)\
&=\int_X P(X)\int_Y P(Y|X)\log P(Y|X)-\int_Y \log{P(Y)}P(Y)\
&=-\int_X P(X)H(Y|X=x)+H(Y)\
&=H(Y)-H(Y|X)\
\end{aligned}$$

其中,$H(Y)$是$Y$的熵,定义为
$$H(Y)=-\int_Y P(Y)\log{P(Y)}$$
衡量的是$Y$的不确定度,即使说,$Y$分布得越离散,$H(Y)$的值越高,而$H(Y|X)$则表示在已知$X$的情况下,$Y$的不确定度,而$I(X;Y)$则表示由$X$引入而使$Y$的不确定度减小的量,因而如果$X,Y$关系越密切,$I(X;Y)$越大,$I(X;Y)$最大的取值是$H(Y)$,也就是说,$X,Y$完全相关,由于X的引入,$Y$的熵由原来的$H(Y)$减小了$I(X;Y)=H(Y)$,变成了0,也就是说如果$X$确定,那么$Y$就完全确定了。而当$X,Y$独立时,$I(X;Y)=0$引入$X$,并未给$Y$的确定带来任何好处。

总结下$I(X;Y)$的性质:
1)$I(X;Y)\geqslant 0$
2)$H(X)-H(X|Y)=I(X;Y)=I(Y;X)=H(Y)-H(Y|X)$
3)当$X,Y$独立时,$I(X;Y)=0$
4)当$X,Y$知道一个就能推断另一个时,$I(X;Y)=H(X)=H(Y)$