Partial Information Decomposition

Apr 14, 2023 Course Learning

architecture

前言

本期将导读Partial Information Decomposition这一篇论文，介绍信息分解方法。

信息分解这一概念由Randall Beer提出，毕业于CWRU，CS PhD，主要研究方向包括认知科学、信息论等。

动机

对于机器学习问题，假如均为布尔变量，有下述等式分别为： $$Z=X=Y$$ $$Z=X+Y$$ $$Z=X \oplus Y$$

对应的参数/架构分别需要1个（1层），2个（1层），2个（2层，异或问题不能通过单层感知机来解决）

直观理解为得到的信息有效性不同，比如已知$X=1$，则代入三个等式中分别得出$Z=1$,$Z>=1$，以及无任何关于$Z$的信息（需要同时得到$Y$，观测两变量间高阶相互作用）。

是否可以得到一个衡量信息大小的指标？需要创造一个方法来描述源变量和目标变量之间信息流动的结构。

以此为例，可以得到$Z$作为目标变量，$X$和$Y$作为源变量。

对于三个等式，信息结构可以通过下述方式描述：

$X$提供了1比特的信息，$Y$也提供了同样的信息（$Y$提供的信息是冗余的，redundant）
$X$提供了1比特的信息，$Y$提供了其他1比特的信息（$X$和$Y$提供的信息是单独的，unique，各不相同）
$X$和$Y$一起提供了1比特的信息（$X$和$Y$提供的信息是协同的，synergistic）

条件互信息

互信息的定义可以查看因果涌现 Part1 有效信息这篇文章，可以简单理解为熵减少的量，在此不重复赘述。

条件互信息：用于描述第三个变量已经给定的情况下，重新观测原有两变量的互信息

$$I(X;Y|Z)=\sum_z P(z)\sum_x \sum_y P(x,y) \log \frac{P(x,y|z)}{P(x|z)P(y|z)}$$

例：$X=Y=Z$, $I(X;Y)=1$, $I(X;Y|Z)=0$

如果有冗余信息，$I(X;Y|Z)<I(X;Y)$

例：$X=Y \oplus Z$, $I(X;Y)=0$, $I(X;Y|Z)=1$

如果有协同信息，$I(X;Y|Z)>I(X;Y)$

但结论逆推不成立，因为协同和冗余可能同时存在，所以需要一种方法来量化协同信息与冗余信息

冗余信息计算

基本概念

假设有$R={R_1,R_2,…,R_N}$作为源变量，目标变量$S$

$A_1, A_2, …, A_k$作为非空且可能相交的$R$的子集，共$2^N-1$个

拿出每一个子集，分别计算互信息 $$I(S;A_i)=\sum_s p(s) I(S=s;A_i)$$

源变量集合中计算得出的最小冗余信息（最少能提供的冗余信息）即为定义

$$I_{min}(S;A_1,A_2, …, A_k)=\sum_s p(s) \min_{A_i}I(S=s, A_i)$$

注：加权的不是具体的$a_i$，而是谁给outcome提供的信息量最小就加权谁，并非在最外面直接套一层$\min$

案例研究

例：$R_1=R_2=S$, $I_{min}(S;A_1,A_2)=1bit$

例：$S=R_1 \oplus R_2$, $I_{min}(S;A_1,A_2)=0bit$

问：冗余信息是从哪来的？是否来源于某个隐藏的公共变量(hidden common variable，可参考因果发现部分术语)或者混杂因子(confounder)？

例：a -> b a -> c b -> d c -> d b和c有共同混杂因子a

答：实际上存在b和c相互独立的情况，下面将以与门为例进行说明

例：$S=R_1 \& R_2$, $I_{min}(S;A_1,A_2)=\frac{3}{2}-\frac{3}{4}log_23bit$

冗余信息的属性：

非负性
$$I_{min}(Z;{A_1,A_2, …, A_k}) \leq I(Z;A_i)$$
$$I_{min}(Z;{A_1}) = I(Z;A_1)$$

冗余晶格

文氏图形式

此处重新定义能够计算冗余信息的$A_k$，每个之中可以有多个变量 $$A_1={{R_1},{R_2}}, A_2={R_1}, A_3={R_2}, A_4= {{R_1,R_2}}$$

对应关系：

$A_1$, $A_2$, $A_3$, $A_4$分别对应图中的{1}{2}, {1}, {2}. {12}

辨析：

$A_1$是一个两个元素的集合，冗余信息即两个元素$R_1$,$R_2$之间的冗余信息
$A_4$集合中只有一个元素，冗余信息即其和$S$之间的互信息，参考冗余信息属性3
{12}可以理解为把二者看成一个二维变量，类似concat，$R_1$和$R_2$要能观测到就都能观测到，要观测不到就都观测不到

注：此处呈现包含关系，如{1}并非排除交集{1}{2}的部分，而是包含这一部分

晶格形式

左图A中的节点与文氏图中的部分一一对应，因而从下到上的节点积累的信息递增，类似$\sum$

联系右图即可扩张到三维，分别给出了晶格形式和文氏图形式

信息分解

$$\prod_R(S;A_i)=I_{\min}(S;A_i)-\sum_{A_j<A_i}\prod_R(S;A_j)$$

可以直观理解为这一节点增加的信息，类似$\delta$

计算得出

$$\prod_R(S;{1}{2})=0.311bit$$ $$\prod_R(S;{1})=0bit$$ 即为$R_1$ unique information $$\prod_R(S;{2})=0bit$$ $$\prod_R(S;{1,2})=0.5bit$$ 即为$R_1$ 和 $R_2$ synergistic information

因果涌现

Emergence as the conversion of information: A unifying theory这篇文章在此做了延伸，描述了信息分解之一框架下因果涌现的定义

顶端的节点有着以下特点

最上面
最高维
最多的信息
最微观
最细粒化

注：两边的系统都是粗粒化过的，均揉成了3个节点

左侧下层的信息量很多，上层的信息量较少，因而下层共享了很多冗余信息量

右侧下层的信息量很少，上层的信息量较多，因而需要联合考虑、观察才能准确预测目标变量的状况

左侧是偏向冗余的系统，右侧是偏向协同的系统

节点之间相互作用比较冗余的更容易发生因果涌现

结论

目标是量化多变量作用于一个变量时，变量之间的信息结构
从定义冗余信息的视角开始量化过程
引入了信息晶格的定义
延伸出了信息分解的计算方法
最终可以量化每一个节点的信息贡献

参考文献

Complex System Causal Emergence

Yikun Han

First Year Master Student

Wir müssen wissen. Wir werden wissen.