上頁 1234 次頁

熵 (Entropy) (第 2 頁)

李天岩

 

首頁 | 搜尋

.原載於數學傳播十三卷三期
.作者當時任教於美國密西根州立大學數學系
對外搜尋關鍵字
 
2. Kolmogorov 熵

我們再來做旋轉光滑硬幣的遊戲。為了方便起見, 我們稱硬幣的正面為 l,反面為 0。讓我們考察連續旋轉 n 次, 其每次正反面出現的各種可能性。旋轉一次,有兩個可能性, 或正面朝上,或反面朝上,即 1,0;旋轉兩次有 4=22 種可能性, 即 11,10,01,00;一般來說,旋轉 n 次則有 2n 種可能性。 把連續旋轉 n 次的任一可能結果看成一個「基本事件」, 我們則得到一個具有 2n 個基本事件的樣本空間, 其每一基本事件有同樣的概率 2-n。 上節中所談 Shannon 熵給出了這個樣本空閒的不確定度──$n\log{2}$。 現在我們要進一步問的是:如果我們已知旋轉硬幣第一次,第二次,… 第 n-1 次的結果,那麼第 n 次會是正面或會是反面的不確定度該是多少?

我們希望能用數學上的語言來描述這個問題。 首先讓我們來考慮定義在 [0,1] 上的函數 $f(x)=2x(\mbox{mod} 1)$,也就是

\begin{displaymath}
f(x)=\left\{
\begin{array}{ll}
2x & 0 \leq x < \frac{1}{2} \\
2x-1 & \frac{1}{2} \leq x \leq 1
\end{array}\right.
\end{displaymath}

(見圖2-1),取 Lebesgue 測度 m 做為 [0,1] 上的測度, 令 $\overline{A}=\{ [0,\frac{1}{2}],[\frac{1}{2},0] \}$ 為 [0,1] 上的一個劃分 (partition), 則 $f^{-1}(\overline{A})=
\{ f^{-1}([0,\frac{1}{2}]),f^{-1}([\frac{1}{2},1])\}$ $=\{ [0,\frac{1}{4}] \cup [\frac{1}{2},\frac{3}{4}],$ $[\frac{1}{4},\frac{1}{2}] \cup [\frac{3}{4},1]\}$ 也是 [0,1] 上的一個劃分。 任給兩個劃分 $\overline{A}$$\overline{B}$,令 $\overline{A}\vee\overline{B}$ 為由下式定義的劃分

\begin{displaymath}
\overline{A} \vee \overline{B} =
\{ A\cap B : A \in \overline{A} , B \in \overline{B}\}
\end{displaymath}

由此,我們則有 $f^{-1}(\overline{A})\vee\overline{A}
=\{[0,\frac{1}{4}],[\frac{1}{4},\frac{1}{2},
[\frac{1}{2},\frac{3}{4}],[\frac{3}{4},1]\}$ 如此這般下去,我們會有

\begin{displaymath}
\bigvee_{i=0}^{n-1} f^{-1}(\overline{A})
=\{ [\frac{i-1}{2^n},\frac{i}{2^n}] : i=1,\cdots,2^n\}
\end{displaymath}

的劃分,這個劃分裡的每個區間 $[\frac{i-1}{2^n},\frac{i}{2^n}]$ 都有 2-n 的 Lebesgue 概率測度。 事實上,它和旋轉硬幣 n 次那個樣本空間裡的 2n 個基本事件是一一對應的。

n=3 其中的一個簡單情況來看。把 $[\frac{3}{8},\frac{4}{8}]$ 這個區間左端的 $\frac{3}{8}$ 寫成

\begin{displaymath}
\frac{3}{8}=\frac{0}{2}+\frac{1}{2^2}+\frac{1}{2^3}
\end{displaymath}

然後將 $[\frac{3}{8},\frac{4}{8}]$ 這個區間和 011(第一次反面,第二次正面,第三次反面)對應。一般來說,我們可以把 $[\frac{i-1}{2^n},\frac{i}{2^n}]$ 這個區間左端的 $\frac{i-1}{2^n}$ 寫成

\begin{displaymath}
\frac{i-1}{2^n}=\frac{a_1}{2}+\frac{a_2}{2^2}+\cdots+\frac{a_n}{2^n}
\end{displaymath}

其中 ak=0 或 1, k=1,…,n。這個區間對應的是旋轉硬幣 n 次, 出現 $a_1 a_2\cdots a_n$ 的基本事件。 總的來說,旋轉硬幣 n 次,2n 個基本事件, 大家的機率都是 2-n 的樣本空間,拿 $f(x)=2x \pmod{1}$ 和劃分 $\overline{A}=\{ [0,\frac{1}{2}],[\frac{1}{2},1]\}$ 來描述, 則是:拿劃分 $\bigvee_{i=0}^{n-1} f^{-1}(\overline{A})$ 裡的 2n 個元素 $[\frac{i-1}{2^n},\frac{i}{2^n}]$ 做基本事件, 大家的 Lebesgue 概率測度都是 2-n 的樣本空間。

「已知旋轉硬幣第一次,第二次,…,第 n-1 次的結果, 那麼第 n 次會是正面或反面的不確定度是多少?」 的這一問題,拿 $f(x)=2x \pmod{1}$ 和劃分 $\overline{A}=\{ [0,\frac{1}{2}],[\frac{1}{2},1]\}$ 來描述, 事實上是在問:已知 x,…,fn-1(x) 在劃分 $\overline{A}$ 裡的位置,那麼 fn(x) 會在 $[0,\frac{1}{2}]$ 裡 或在 $[\frac{1}{2},1]$ 裡的不確定度是多少呢?

讓我們來看 n=4 這個特殊情形。比如說我們已知前三次的結果, 它們是 101(第一次正面,第二次反面,第三次正面),這在 $\bigvee_{i=0}^{2} f^{-i}(\overline{A})$ 中所對應的區間是 $[\frac{5}{2^3},\frac{6}{2^3}]$,因為

\begin{displaymath}
\frac{5}{2^3}=\frac{1}{2}+\frac{0}{2^2}+\frac{1}{2^3}
\end{displaymath}

仔細的看,這個間區事實上是, $[\frac{1}{2},1]$$f^{-1}([0,\frac{1}{2}])=$ $[0,\frac{1}{4}]\cup [\frac{1}{2},\frac{3}{4}]$ 以及 $f^{-2}([\frac{1}{2},1])=[\frac{1}{8},\frac{1}{4}]$ $\cup [\frac{3}{8},\frac{1}{2}] \cup [\frac{5}{8},\frac{3}{4}]$ $\cup [\frac{7}{8},1]$ 的交集,也就是說

\begin{displaymath}[\frac{5}{2^3},\frac{6}{2^3}]
=[\frac{1}{2},1]\cap f^{-1}([0,\frac{1}{2}])\cap f^{-2S}([\frac{1}{2},1])
\end{displaymath}

元素x在這交集所代表的意義是: $x \in [\frac{1}{2},1],f(x)\in [0,\frac{1}{2}]$$f^2(x)\in [\frac{1}{2},1]$。 一般說來,已知前三次旋轉硬幣的結果相當於已知 x,f(x),f2(x) 在劃分 $\overline{A}=\{ [0,\frac{1}{2}],[\frac{1}{2},1]\}$ 中的位置。 問第四次是正面還是反面的不確定度,相當於問 f3(x) 究竟是在 $[0,\frac{1}{2}]$ 中還是在 $[\frac{1}{2},1]$ 中的不確定度。

已知 $x,f(x),\cdots,f^{n-1}(x)$ 在那裡,問 fn(x) 在那裡的不確定度, 當 n 趨近於無窮大時的變化就是我們在這一節要談的 Kolmogorov 熵。

我們將把我們的著眼點放在一般的概率測度空間 (Probability measure space) 和定義在它上面的可測變換 (measurable function)。 設 $(X,\Sigma,\mu)$ 為一概率測度空間。即 X 為一集合, Σ 為 X 上的一些子集合所構成的一個 $\sigma-$代數, μ 為 Σ 上的概率測度,也就是說 $\mu(X)=1$。 假設 $f:X \longrightarrow X$ 為一個可測變換。 這是指,Σ 中每個元素的逆像 f-1(A) 仍在 σ 中。 我們任取 X 的一個有限劃分 (finite partition) $\overline{A}=\{ A_1,\cdots$ ,Am}$\overline{A}$ 中每個集合 Ai 屬於 Σ, 它們之間互不相交(交集的測度為 0)且聯集恰為 X。 這樣 $\overline{A}$ 可看成具有「基本事件」 A1,A2,…,Am 且有概率分布 $\mu(A_1)$,…,$\mu(A_m)$ 的一個有限樣本空間。這個樣本空間經常被稱為「試驗結果」。上節中談到,這個「試驗結果」的 Shannon 熵應為:

\begin{displaymath}
H(\overline{A})=-\sum_{i=1}^{n} \mu(A_i) \log \mu (A_i)
\end{displaymath}

對給定的 f,集族 $f^{-1}(\overline{A})$ $=\{(f^{-1}(A_1),\cdots,f^{-1}(A_m) \})$ 也可給出 X 的一個劃分。首先我們要提出這樣的問題: 在試驗結果 $\overline{A}=\{ A_1,\cdots,A_m \}$ 為已知的前提下,試驗結果 $f^{-1}(\overline{A})=\{f^{-1}(A_1),$$\cdots,$ f-1(An)} 的不確定度為多少?也就是說,我們欲知:已知 xAi 中, 問 f(x) 在何處的不確定度為多少? 我們可以從條件概率的角度來探討之。為簡單起見, 設 n=3,即 $\overline{A}=\{ A_1,A_2,A_3 \}$。 假如,已知 xA1 中我們來看 f(x)A1,A2A3 的概率為如何。 對 $i=1,2,3,f(x) \in A_i$,當且僅當 $x \in f^{-1}(A_i)$, 故 xA1 中且 f(x)Ai 中之集合為 $A_1 \cap f^{-1}(A_i)$, 因而其條件概率為 $\mu(A_1 \cap f^{-1}(A_i) )$ $ / \mu(A_1)$。 由 Shannon 熵的定義知,在 $x \in A_1$ 的條件下, f(x) 會在 A1,或 A2,或 A3 的不確度應為

\begin{displaymath}
H_1= - \sum_{i=1}^{3} \frac{\mu(A_1 \cap f^{-1}(A_i))}{\mu(A_1)}
\times \log{(\frac{A_1 \cap f^{-1}(A_i)}{\mu(A_1)})}
\end{displaymath}

類似地,在 $x \in A_2$,或 $x \in A_3$ 的條件下,試驗 結果 $f^{-1}(\overline{A})=
\{ f^{-1}(A_1),f^{-1}(A_2),f^{-1}(A_3)\}$ 的不確定度應分別為

\begin{displaymath}
H_2= -\sum_{i=1}^{3}\frac{(A_2 \cap f^{-1}(A_i))}{\mu (A_2)}
\times \log{\frac{\mu(A_2 \cap f^{-1}(A_i))}{\mu (A_2)}}
\end{displaymath}


\begin{displaymath}
H_3=-\sum_{i=1}^{3}\frac{\mu(A_3\cap f^{-1}(A_i))}{\mu(A_3)}
\times \log{\frac{\mu(A_3 \cap f^{-1}(A_i))}{\mu (A_3)}}
\end{displaymath}

由推導 Shannon 熵定義的條件(ii)易知, 在試驗結果 $\overline{A}=\{ A_1,A_2,A_3 \}$ 為已知的條件下, 試驗結果 $f^{-1}(\overline{A})=
\{ f^{-1}(A_1),f^{-1}(A_2),f^{-1}(A_3)\}$的不確定度 $H(f^{-1}(\overline{A})\vert\overline{A})$H1,H2,H3的加權和,即

\begin{eqnarray*}
&& H(f^{-1}(\overline{A})\vert\overline{A}) \\
&=& \sum_{i=1}...
...}(A_j))
\times \log{\frac{\mu(A_i \cap f^{-1}(A_j))}{\mu (A_i)}}
\end{eqnarray*}


如法炮製,對一般的有限劃分 $\overline{A}=\{ A_1,\cdots,A_m \}$ 我們可得到所謂的「劃分 $f^{-1}(\overline{A})$ 關於劃分 $\overline{A}$ 的條件 shannon 熵」,

\begin{eqnarray*}
&& H(f^{-1}(\overline{A}\vert\overline{A})) \\
&=& -\sum_{j=1...
...(A_j))
\times \log{\frac{\mu(A_i \cap f^{-1}(A_j))}{\mu (A_i)}}
\end{eqnarray*}


下面,我們來給出上述 $H(f^{-1}(\overline{A})\vert\overline{A})$ 的另一等價型式以便後面推廣。

命題2-1:

\begin{displaymath}
H(f^{-1}(\overline{A})\vert\overline{A})=
H(\overline{A}\vee f^{-1}(\overline{A}))-H(\overline{A})
\end{displaymath}

證明:

\begin{eqnarray*}
&& H(f^{-1}(\overline{A})\vert\overline{A}) \\
&=& -\sum_{i=1...
...mu(A_i)} \\
&=& H(\overline{A} \vee f^{-1}(\overline{A}))
-H(A)
\end{eqnarray*}


命題2-1在直觀上看也很顯然:試驗結果 $\overline{A} \vee f^{-1}(\overline{A})$ 的不確定度 $H(\overline{A}\vee f^{-1}(\overline{A}))$應為試驗結果$\overline{A}$ 的不確定度 $H(\overline{A})$在試驗結果$\overline{A}$為已知條件下, 試驗結果 $f^{-1}(\overline{A})$的不確定度 $H(f^{-1}(\overline{A})\vert\overline{A})$ 之和。

上述已知試驗結果$\overline{A}$,問試驗結果f-1(A)的不確定度, 相當於已知x$\overline{A}$中的位置, 我們問f(x)$\overline{A}$中的位置的不確定度。 已知 $x,f(x),\cdots,f^{n-1}(x)$在分劃$\overline{A}$中的位置, 問 fn(x)$\overline{A}$中的位置的不確定度, 則相當於已知試驗結果 $\bigvee_{i=0}^{n-1}f^{-i}(\overline{A})$ $=\overline{A}\vee f^{-1}(\overline{A})\vee \cdots f^{-(n- 1)}(\overline{A})$ ,問試驗結果 $f^{-n}(\overline{A})$ 的不確定度。 Kolomogorov 熵基本上是在刻劃這個不確定度在當 n 趨近於無窮大時的漸近性質。

任給自然數n$\bigvee_{i=0}^{n-1}f^{-i}(\overline{A})$$f^{-n}(\overline{A})$ 都是 X 的有限劃分。 在已知試驗結果, $\bigvee_{i=0}^{n-1}f^{-i}(\overline{A})$ 的條件下, 試驗結果 $f^{-n}(\overline{A})$ 的不確定度, 實際上是劃分 $f^{-n}(\overline{A})$ 的條件 Shannon 熵,它是

\begin{eqnarray*}
&& H(f^{-n}(\overline{A})\vert \bigvee_{i=0}^{n-1} f^{-i}(\ove...
...f^{-i}(\overline{A}))-H(\bigvee_{i=0}^{n-1}f^{-i}(\overline{A}))
\end{eqnarray*}


定義2-2:
$\overline{A}=\{ A_1,\cdots,A_m \}$X的有限劃分,則可測變換 $f:X \rightarrow X$關於$\overline{A}$ 的熵定義為

\begin{displaymath}
h_{\mu}(f,\overline{A})=
\lim_{n \rightarrow \infty} \mbox{s...
...(\overline{A}) \vert \bigvee_{i=0}^{n-1} f^{-i}(\overline{A}))
\end{displaymath}

定義2-3:
設 (X,Σ,μ) 為一概率空間, $f:X \rightarrow X$ 為一可測變換, 則 f 的 Kolomogorov 熵定義為

\begin{displaymath}
h_{\mu}(f)=\sup\{h_\mu(f,\overline{A}):\overline{A}
\mbox{{\...
....1pt{\fontfamily{cwM0}\fontseries{m}\selectfont \char 125}} \}
\end{displaymath}

對一般的可測變換 $f:X \rightarrow X$, 上述定義2-2中的上極限符號不能改為極限符號。 但對遍歷理論中所研究的一類重要可測變換-保測變換 (measure preserving transformation)我們可以證明極限 $\lim_{n \rightarrow \infty}
H(f^{-n}(\overline{A})\vert\bigvee_{i=1}^{n-1} f^{-i}(\overline{A})$ 確實存在並有一另一種等價定義。該定義顯然不及前者直觀易懂, 但它卻給出了計算上的許多方便。所謂保測變換是指 $f:X \rightarrow X$, 任給 $A \in \Sigma$, $f^{-i}(A) \in \Sigma $ 且有

\begin{displaymath}
\mu(f^{-1}(A))=\mu(A)
\end{displaymath}

定義2-2:
$\overline{A}=\{ A_1,\cdots,A_m \}$X 的有限劃分, 則保測變換 $f:X \rightarrow X$關於$\overline{A}$的熵定義為

\begin{displaymath}
h_{\mu}(f,\overline{A})=\lim_{n \rightarrow \infty }
\frac{1}{n} H(\bigvee_{i=0}^{n-1}f^{-i}(\overline{A}))
\end{displaymath}

在證明此定義合理,且與定義2-2等價之前,我們首先注意到如下的事實: 若f為保測變換,則 $H(f^{-1}(\overline{A}))=H(A)$ 這由條件 $\mu(f^{-1}(A))=\mu(A)$易見。 若$\overline{C}$$\overline{D}$X的兩個有限劃分, 我們記 $\overline{C} \leq \overline{D}$,若 $\overline{C}$的每一元素是$\overline{D}$中某些元素之聯(Union) (即$\overline{D}$$\overline{C}$的一個細分(refinement)) 我們需要下列引理,其證明稍後給出。

引理2-4:
$\overline{C} \leq \overline{D}$, 則 $H(\overline{A}\vert\overline{C}) \geq H(\overline{A}\vert\overline{D})$

現在可以敘述並證明我們的等價定理了。

定理2-5:
$f:X \rightarrow X$ 為保測變換,則對 X 的任一劃分 $\overline{A}$

\begin{displaymath}
\lim_{n \rightarrow \infty}
H(f^{-n}(\overline{A})\vert \big...
...\infty } \frac{1}{n}H(\bigvee_{i=0}^{n-1}f^{-i}(\overline{A}))
\end{displaymath}

證明:
n=1,則

\begin{eqnarray*}
&&H(f^{-1}(\overline{A})\vert\overline{A}) \\
&=&H(f^{-1}(\ov...
...(\overline{A})) \\
&=&H(\overline{A}\vert f^{-1}(\overline{A}))
\end{eqnarray*}


n=2 時,

\begin{eqnarray*}
&&H(f^{-2}(\overline{A})\vert\overline{A}\vee f^{-1}(\overline...
...verline{A} \vert f^{-2}(\overline{A}) \vee f^{-1}(\overline{A}))
\end{eqnarray*}


用歸納法易證,一般地有

\begin{displaymath}
H(f^{-n}(A)\vert \bigvee_{i=0}^{n-1} f^{-i}(\overline{A}))
=H(\overline{A}\vert \bigvee_{i=0}^{n} f^{-i} (\overline{A}))
\end{displaymath}

由上述引理2-4,故極限存在。從而,定義2-2中的極限實際上存在。 另一方面,對 i=1,2,…,n-1,由

\begin{displaymath}
H(f^{-1}(\overline{A})\vert \bigvee_{i=0}^{i-1} f^{-j}(\over...
...-j}(\overline{A}))
-H(\bigvee_{j=0}^{i-1}f^{-j}(\overline{A}))
\end{displaymath}

各式相加,我們有

\begin{eqnarray*}
&&H(\bigvee_{i=0}^{n-1} f^{-1}(\overline{A})) \\
&=& H(\overl...
...}^{n}H(\overline{A}\vert\bigvee_{j=0}^{i-1}f^{-j}(\overline{A}))
\end{eqnarray*}


故有

\begin{displaymath}\frac{1}{n}H\bigvee_{i=0}^{n-1} f^{-i}(\overline{A}))
= \frac...
...n-1}H(\overline{A}\vert\bigvee_{i=0}^{i} f^{-j}(\overline{A}))
\end{displaymath}

借用初等微積分的已知結果: $\lim_{n \rightarrow \infty} a_n = L \Rightarrow
\lim_{n \rightarrow \infty} \frac{1}{n} \sum_{i=0}^{n-1} a_i =L$,我們得到

\begin{eqnarray*}
&& \lim_{n \rightarrow \infty} \frac{1}{n}H(\bigvee_{i=0}^{n-1...
...^{-n}(\overline{A})\vert\bigvee_{i=0}^{n-1}f^{-i}(\overline{A}))
\end{eqnarray*}


現在我們來證明引理2-4。

$\overline{A}=\{A_i \}$, $\overline{C}=\{C_j\}$, $\overline{D}=\{D_k\}$, 我們要證

\begin{eqnarray*}
&& -\sum_{j}\sum_{i} \mu (C_j)\frac{\mu(A_i \cap C_j)}{\mu(C_j...
...k)}{\mu(D_k)}
\times \log{\frac{\mu(A_i \cap D_k)}{\mu(D_k)}}\\
\end{eqnarray*}


只須證明對每一 ij

\begin{eqnarray*}
&&\mu(C_j)\frac{\mu(A_i \cap C_j)}{C_j}
\log{\frac{\mu(A_i \ca...
..._i \cap D_k)}{\mu(D_k)}
\log{\frac{\mu(A_i \cap D_k)}{\mu(D_k)}}
\end{eqnarray*}


$\phi(x)=x\log{x}$, $\phi(0)=0$ 則上式為

\begin{eqnarray*}
\phi(\frac{\mu(A_i\cap C_j)}{\mu(C_j)})
\leq \sum_{k} \frac{\mu(C_j \cap D_k)}{\mu(C_j)}
\phi(\frac{\mu(A_i \cap D_k)}{\mu(D_k)})
\end{eqnarray*}


由於 $\phi$ 是凸函數(這由 $\phi ''(x)=\frac{1}{x}>0$ 可知) 和假設 $\overline{C} \leq \overline{D}$,易知

\begin{eqnarray*}
&&\sum_{k}\frac{\mu(C_j\cap D_k)}{\mu(C_j)} \phi(\frac{\mu(A_i...
..._k)}{\mu(D_k)}) \\
&=& \phi(\frac{\mu(A_i \cap C_j)}{\mu(C_j)})
\end{eqnarray*}


即我們證明了 $H(\overline{A}\vert\overline{C}) \geq H(\overline{A}\vert\overline{D})$

歷史上,引進 Kolmogorov 熵概念的主要動力是關於概率空間保測變換之間共軛關係的不變量的研究。 設 $(X_{1},\Sigma_{1},\mu_{1})$$(X_2,\Sigma_2,\mu_2)$ 為兩個概率空間, $T_1: X_1 \rightarrow X_1$$T_2: X_2 \rightarrow X_2$ 為保測變換。 我們說 T1T2 共軛 (conjugate) 是指存在一個保測同構 $\phi :$ $(X_2,\Sigma_2,\mu_2)$ $\rightarrow$ $(X_1,\Sigma_1,\mu_1)$ 使得 $\phi \circ T_2^{-1}= T_1^{-1}\circ \phi$。 我們稱一個數量為共軛保測變換的「不變量 (invariance)」 是指二個保測變換若是共軛,這個數量一定一樣。 這個數量若不一樣,這兩個保測變換一定不共軛。 共軛的保測變換具有同樣的遍歷性質。 我們若能找到關於共軛保測變換的不變量,我們就可從本質上刻劃不同共軛類保測變換的特徵:Kolmogorov 熵就是這樣的一個重要的不變量。

早在1943年,人們就知道 Bernoulli 的 ( $\frac{1}{2},\frac{1}{2}$) -雙邊移位算子 (two side shift) 和 ( $\frac{1}{3},\frac{1}{3},\frac{1}{3}$)- 雙邊移位算子都具有可數個 Lebesgue 譜點,因而是譜同構的,但不知道它們是否共軛。 直到1958年才由 Kolmogorov 證明了它們分別具有 $\log 2$$\log 3$ 的 Kolmogorov 熵,故非共軛。從而消除了遍歷理論這個重大懸念,並開創了一個嶄新的研究領域。 我們這裡介紹的 Kolmogorov 熵的概念是由 Kolmogorov 的學生 Sinai 在1959年改進的,和 Kolmogorov 1958年給出的原始定義稍有不同。

   

上頁 1234 次頁

回頁首
 
(若有指正、疑問……,可以在此 留言寫信 給我們。)
EpisteMath

EpisteMath (c) 2000 中央研究院數學所、台大數學系
各網頁文章內容之著作權為原著作人所有


編輯:朱安強 / 繪圖:簡立欣 最後修改日期:5/6/2002