上頁 1234 已在最後一頁

熵 (Entropy) (第 4 頁)

李天岩

 

首頁 | 搜尋

.原載於數學傳播十三卷三期
.作者當時任教於美國密西根州立大學數學系
對外搜尋關鍵字
 
4. Boltzmann 熵

熱力學中熵是一個極其重要的概念,最初由 Clausius 引進。 後來 L. Boltzmann 在他發表在1866年關於氣體動力學理論的開創性工作中給出了熵的另一形式。 這個熵在物理、化學的若干領域裡自始至終扮演著關鍵性的角色。 可是 Boltzmann 熵和我們先前定義的 Kolmogorov 熵或拓樸熵並非一致。 儘管如此,它們在數學的背景下,仍存在著千絲萬縷的聯繫。 在這最後一節,我們將遨遊於 Boltzmann 熵的數學描述。

$(X,p_1,\cdots,p_n)$ 為一有限樣本空間, 則其 Shannon 熵為 $H(p_1,\cdots,p_n)=-\sum_{i=1}^{n}p_i \log{p_i}$ ,現設 $(X,\Sigma,\mu)$ 為一測度空間。 記 L'(X) 為定義在 X 上的 Lebesgue 可積函數全體。 L'(X) 中滿足等式

\begin{displaymath}
\int_{x} f(x)d \mu =1
\end{displaymath}

的非負函數了 f(x) 稱為密度函數,其集合記為 D。 易見等式

\begin{displaymath}
\mu_f(A)=\int_{A}f(x)d\mu \quad A\in \Sigma
\end{displaymath}

定義了 $(X,\Sigma)$ 上的一個概率測度,其對應的密度就是 f(x)。 概率空間 $(X,\Sigma,\mu_f)$ 可看成是無窮樣本空間。 由 Shannon 熵的啟迪,我們可以如下定義 f 的 Boltzmann 熵。 為此,令函數 $\eta(\mu)$ 定義為

\begin{displaymath}
\eta(\mu)=\left\{
\begin{array}{cc}
-u\log{u} & u>0 \\
0 & u=0\\
\end{array}\right.
\end{displaymath}

$\eta(u)$ 的圖像由圖4-1表示。



圖4-1

定義4-1:
$f\in D$$\eta(f)\in L'(X)$f 的 Boltzamann 熵定義為

\begin{displaymath}
H(f)=\int_{x} \eta(f(x)) d \mu
=-\int_{x} f(x) \log{f(x)}d \mu
\end{displaymath}

$\eta(u)$ 定義知, $\eta '(\mu)=-(\log{u}+1)$$\eta ''(u) = -\frac{1}{u} <0$。因而η是$[0,\infty)$上的嚴格遞增凹函數, 由Taylor展式,任給$u,v \geq 0$

$\displaystyle \eta(u)$ = $\displaystyle \eta(v)+\eta '(v)(u-v)+ \frac{\eta ''(\xi)}{2!}(u-v)^2$ (1)
  < $\displaystyle \eta(v) + \eta '(v)(u-v)$ (2)

即,

\begin{displaymath}
-u\log{u} \leq -v \log{v}-(\log{v}+1)(u-v)
\end{displaymath}

簡化之,我們便有有名的 Gibbs 不等式,

\begin{displaymath}
u-u \log{u} \leq v- u\log{v}
\end{displaymath}

任給函數 $f,g \in D$,由 Gibbs 不等式和積分的單調性,

\begin{displaymath}
\int_{X} (f(x)-f(x)\log{f(x)}) d\mu
\leq \int_{X} (g(x)-f(x) \log{g(x)}d \mu
\end{displaymath}

由於 $\int_{x}f(x)d\mu =\int_{x} g(x) d \mu =1$,我們有如下重要的積分不等式: $\forall f,g \in D$

\begin{displaymath}-\int_{X} f(x) \log{f(x)}d\mu
\leq \int_{X} f(x) \log{g(x)}d\mu \eqno{(4-1)}
\end{displaymath}

在有限的樣本空間 (X,p1,…,pn) 中,Shannon 熵在 p1=p2==pn=n 時為最大,Boltzmann 熵在概率測度空間裡也有類似的性質。

命題4-2:
$\mu(X) < + \infty$,則密度函數 $f_0(x)\equiv \frac{1}{\mu(X)}$ 滿足

\begin{displaymath}
H(f_0)= \log{\mu (X)} = \mbox{max}\{ H(f): f \in D\}
\end{displaymath}

證明:
首先易見 $f_0 \in D$。其次,任給 $f\in D$,由不等式(4-1)

\begin{eqnarray*}
H(f)&=& -\int_{X} f(x) \log{f(x)} d\mu \\
&\leq& -\int_{X} f...
...& \log{\mu(X)} \int_{X} f(x) d\mu \\
&=& \log{\mu(X)} = H(f_0)
\end{eqnarray*}


為了描述一些與Boltzmann熵有關的條件極值問題。 我們引進一些概率論常用的術語。設X為一個隨機變量(Random Variable) ,即X為某一固定樣本空間上的可測實函數。 f(x)為這個測度空間的密度函數,則

\begin{displaymath}
\mbox{E}(X)=\int_{\infty}^{\infty} xf(x)dx
\end{displaymath}

稱為 X 的期望值 (Expected Value 或 Expectation)。 而數

\begin{displaymath}
\mbox{Var}(X)=\int_{-\infty}^{\infty} (x-\mbox{E}(X))^2f(x)dx
\end{displaymath}

則稱為 X 的變異數 (variance)。期望值是關於於隨機變量 X 平均值的一個度量, 變異數則表示隨機變量偏離其平均值的程度。下列性質,可以輕易的被驗證:

(i) $\mbox{E}(aX+bY)=a\mbox{E}(X)+b\mbox{E}(Y)$
(ii) $\mbox{Var}(cX)=c^2 \mbox{Var}(X)$
(iii) $\mbox{Var}(X)=\mbox{E}(X^2)-\mbox{E}(X)^2$
(iv) 若 XY「獨立(independent)」則 $\mbox{Var}(X+Y)=\mbox{Var}(X)+\mbox{Var}(Y)$

設有一列獨立隨機變量 $\{X_{k}\}_{k \geq 1}$$\mbox{E}(X_k)=m_k$$\mbox{Var}(X_k-m_k)=\sigma_k^2$,令

\begin{displaymath}
S_n=\sum_{k=1}^{n}(X_k-m_k)
\end{displaymath}

則,

\begin{eqnarray*}
\mbox{Var}(S_n)&=&\mbox{Var}(\sum_{k=1}^{n}(X_k-m_k)) \\
&=& \sum_{k=1}^{n} \mbox{Var}(X_k-m_k)= \sum_{k=1}^{n} \sigma_k^2
\end{eqnarray*}


我們標準化 Sn,即令

\begin{displaymath}
T_n = \frac{S_n}{\sqrt{\mbox{Var}(S_n)}}
\end{displaymath}

$E(T_n)=0,\mbox{Var}(T_n)=1$

概率理論中有個非常重要的基本定理:中央極限定理 (central limit theorem)。它大概的意思是說, 在漸近狀態下,通常隨機變量 Tn 的概率分佈 (Probability distribution) 是遵循 Gauss 分佈規律的,也就是說,

\begin{displaymath}
\lim_{n \rightarrow \infty } P(a \leq T_n \leq b) =
\frac{1}{\sqrt{2\pi}} \int_{a}^{b} e^{-\frac{u^2}{2}} du
\end{displaymath}

其中 P 為樣本空間的概率分佈。

但是,為什麼大家都遵循的是 Gauss 分佈規律,而不是其他的分佈規律呢?事實上, 這和熱力學第二定律有異曲同工之妙。熱力學第二定律大致上說,自然界的規律是,一切動態系統都是在向「熵」高的方向發展。 從這個角度來看,在 $\mbox{E}(T_n)=0$, $\mbox{Var}(T_n)=1$ 的條件下, Gauss 分佈的確有最大的 Boltzmann 熵,我們用下面的命題,對這點略加說明。

$\overline{D}=\{ f \in D : \int_{-\infty}^{\infty} xf(x) dx =0
,\int_{-\infty}^{\infty} x^2 f(x)dx =1 \}$

命題4-3
$f_0(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}$,則 $f\in D$

\begin{displaymath}
H(f_0)= \mbox{max} \{ H(f): f \in \overline{D}\}= \log{\sqrt{2 \pi}}
+\frac{1}{2}
\end{displaymath}

證明:
由公式 $\int_{-\infty}^{\infty} e^{-x^2} dx = \sqrt{\pi}$ ,易知 $\int_{-\infty}^{\infty} f_0(x)dx
= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-\frac{x^2}{2}} dx =1$$f_0 \in D$,又由部分積分法易證

\begin{displaymath}
\int_{-\infty}^{\infty} x f_0(x)dx =0
\end{displaymath}

以及

\begin{displaymath}
\int_{-\infty}^{\infty} x^2f_0(x) dx =1
\end{displaymath}

$f_0(x) \in \overline{D}$,由不等式(4-1)

\begin{eqnarray*}
H(f) &= & \int_{-\infty}^{\infty} f(x) \log{f(x)}dx\\
&\leq&...
...sqrt{2\pi}} ]dx \\
&=& \log{(\sqrt{2\pi})}+\frac{1}{2} = H(f_0)
\end{eqnarray*}


類似地,記 $\overline{\overline{D}}=\{f \in D,
\int_{0}^{\infty} xf(x) = \frac{1}{\lambda} \}$ 比照上述證明,我們有

命題4-4:
$f_0(x)=\lambda e^{- \lambda x}$,則 $f_0 \in \overline{\overline{D}}$, 且

\begin{displaymath}
H(f_0) =\mbox{max}\{ H(f): f \in \overline{\overline{D}} \}
=1 -\log{\lambda}
\end{displaymath}

上述兩命題,可推廣到下述一般情形。設 $g\in L^{\infty}$,給定約束

\begin{displaymath}
\int_{x} g(x)f(x)dx = \overline{g}
\end{displaymath}

H(f)在此約束下,最大值的密度函數應為

\begin{displaymath}
f_0(x) = \frac{e^{- rg(x)} }{\int_X e^{-rg(x)}dx}
\end{displaymath}

其中r為一常數。同樣,若有兩個約束

\begin{displaymath}
\int_{X} g_1(x)f(x)dx = \overline{g_1}
\end{displaymath}


\begin{displaymath}
\int_{X} g_2(x)f(x)dx = \overline{g_2}
\end{displaymath}

則密度函數

\begin{displaymath}
f(x)= \frac{e^{-(r_1g_2(x)+r_2g_2(x))}}
{\int_X e^{-(r_1g_2(x)+r_2g_2(x))} dx }
\end{displaymath}

給出了H(f)在這兩個約束下的最大值H(f0), 其中r1,r2為兩常數。更一般地,我們有

命題4-4:
$(X,\Sigma,\mu)$ 為一測度空間,非負函數 $g_1,\cdots,g_m \in L^{\infty}(X)$ 及正常數 r1,…,rm 滿足條件

\begin{displaymath}
\frac{\int_{X} g_i(x) \prod_{i=1}^{m} e^{-r_jg_j(x)} d \mu}
...
...{m} e^{-r_jg_j(x)} d \mu }
=\overline{g_i}
,\quad i=1.\cdots,m
\end{displaymath}

H(f) 在約束

\begin{displaymath}
\int_{X} g_i(x)f(x) dx = \overline{g}_i,\quad i=1,\cdots,m
\end{displaymath}

下最大密度值函數為

\begin{displaymath}
f_0(x)=
\frac{\prod_{i=1}^{m} e^{-r_i}{g_i(x)}}
{\int_{X} \prod_{i=1}^{m} e^{-r_ig_i(x)} d \mu }
\end{displaymath}

證明:
為簡單起見,令 $z= \int_X \prod_{i=1}^{m}e^{-r_ig_i(x)} d \mu $,則 $f_0(x)= z^{-1} \prod_{i=1}^{m} e^{-r_i}{g_i(x)}$。 不難算出

\begin{displaymath}
H(f_0)= \log{z}+ \sum_{i=1}^{m} r_i \overline{g}_i
\end{displaymath}

任給密度函數 f 滿足上述約束條件,由不等式(4-1)知,

\begin{eqnarray*}
H(f)
&\leq& -\int_X f(x) \log{[z^{-1} \prod_{i=1}^{m} e^{-r_ig...
...] d\mu \\
&=& \log{z} + \sum_{i=1}^{m} r_i\overline{g}_i=H(f_0)
\end{eqnarray*}


特別,當 m=1 時,若 g(x) 看成是系統的能量時, f0(x)= z-1 e-rg(x) 恰好就是 Gibbs 典型分怖函數,且 $z=\int_X e^{-rg(x)d\mu}$ 為其分析函數,而對應的最大熵 $H(f_0)=\log{z}+r\overline{g}$ 恰好就是眾所周知的熱力學熵。

   

上頁 1234 已在最後一頁

回頁首
 
(若有指正、疑問……,可以在此 留言寫信 給我們。)
EpisteMath

EpisteMath (c) 2000 中央研究院數學所、台大數學系
各網頁文章內容之著作權為原著作人所有


編輯:朱安強 / 繪圖:簡立欣 最後修改日期:5/6/2002