上頁 12345 次頁

凸函數、Jensen 不等式與 Legendre 變換 (第 3 頁)

林琦焜

 

首頁 | 搜尋

.原載於數學傳播第十九卷第四期
.作者當時任教於成大數學系
對外搜尋關鍵字
 
三、Jensen 不等式的意義

我們感興趣的問題是關於 Jensen 不等式(6)式或(7)式之幾何意義與物理意義,首先介紹質量中心

假設平面上有 n 個點且它們皆有相同之質量,其位置向量為 $\vec{\alpha}_i$$1\leq i\leq n$,則質量中心之位置向量為

\begin{displaymath}
\vec{c} = \frac{1}{n} \sum_{i=1}^n \vec{\alpha}_i
\eqno{(9)}
\end{displaymath}


\begin{displaymath}
\sum_{i=1}^n(\vec{\alpha}_i - \vec{c} \, )=0
\end{displaymath}

這意思是從 $\vec{c}$ 點到各點之向量彼此互相抵消。



圖三

我們可以這麼想像:在每一點 $\vec{\alpha}_i$ 為一釘有木樁而後用一條橡皮筋連接各點 $\vec{\alpha}_i$。則如此可形成一多邊形 H(陰影區域)而這就是 $\{\vec{\alpha}_1 \cdots \vec{\alpha}_n \}$ 的「凸包」(convex hull)。



圖四

質量中心(9)式告訴我們的就是

\begin{displaymath}
\vec{c} \mbox{ {\fontfamily{cwM1}\fontseries{m}\selectfont \...
...amily{cwM0}\fontseries{m}\selectfont \char 125})}
\eqno{(10)}
\end{displaymath}

這點可由圖形直觀而得。通過任意一點 PP 在該集合之外部,我們可劃一直線 L 使得 H 及其所圍區域完全落在 L 之一邊。當然這些向量不可能互相抵消,因為它們在法向量 $\vec{n}$ 上均有正的分量。

註:上面所談的這個概念其實就是泛函分析中 Banach Separation 定理之一雛形。

有了這個預備工作之後,我們回到原來的點:

\begin{displaymath}
(x_1,f(x_1))\cdots (x_n,f(x_n)), \quad x_1\leq x_2\leq\cdots\leq x_n
\end{displaymath}



圖五

K = {(x,f(x))} 為函數 f 之圖形 (graph),同時我們也連接兩端點 (x1,f(x1)),(xn,f(xn)),則由質量中心為

\begin{displaymath}
\vec{c} =
\left( \frac{\sum_{i=1}^nx_i}{n},\frac{\sum_{i=1}^nf(x_i)}{n} \right)
\end{displaymath}

必定落在陰影區域 H 之內部,即

\begin{displaymath}
f \left( \frac{\sum_{i=1}^nx_i}{n} \right)
\leq \frac{1}{n}\sum_{i=1}^nf(x_i)
\end{displaymath}

這就是(7)式,其意義為:質量中心 $\vec{c}$ 必定在圖形 K 之上方。而通過 (x1,f(x1)),(xn,f(xn)) 兩點之弦方程式為

\begin{displaymath}
y = g(x) = \frac{f(x_n)-f(x_1)}{x_n-x_1}(x-x_1)+f(x_1)
\eqno{(11)}
\end{displaymath}

由圖形亦知

\begin{displaymath}
\frac{1}{n}\sum_{i=1}^n f(x_i)
\leq g \left( \frac{\sum_{i=1}^n x_i}{n} \right)
\eqno{(12)}
\end{displaymath}

而且對所有 $x \in I=[x_1,x_n]$ 下式成立

\begin{displaymath}
f(x)\leq g(x)
\eqno{(13)}
\end{displaymath}

這個不等式我們可視為比較定理(Comparison 定理)最簡單的形式,而這在微分方程理論中扮演著舉足輕重的角色。比較(7)與(12)式,各等式要成立其充分必要條件為質量中心 $\vec{c}$ 落在圖形 K 上,即

\begin{displaymath}
\vec{c}\in K,\quad
f \left( \frac{\sum_{i=1}^nx_i}{n} \right)
= \frac{1}{n} \sum_{i=1}^n f(x_i)
\eqno{(14)}
\end{displaymath}

這相當於

\begin{displaymath}
x_1=x_2=\cdots =x_n \eqno (14)'
\end{displaymath}

如果將 $\frac{1}{n}$ 視為 xi 之機率分配(一致分配),則 Jensen 不等式(7),也可以用機率的角度來看

\begin{displaymath}
f(E(x))\leq E(f(x))
\eqno{(15)}
\end{displaymath}

E 為期望值。

對於較一般的(6)式其意義仍是一樣的,即視 x1,…,xnn 個點但其質量分別為 pi$\sum_{i=1}^np_i$ 為其總質量,故有

\begin{displaymath}
f \left( \frac{\sum_{i=1}^n p_i x_i}{\sum_{j=1}^n p_j} \right)
\leq \frac{\sum_{i=1}^n p_i f(x_i)}{\sum_{j=1}^n p_j}
\end{displaymath}

若視 $p_i/\sum_{j=1}^n p_j$ 為點 xi 之機率分配,則上式可以期望值之形式表達出來,其形式與(15)式同。

若仔細推敲,可知我們前面這些推導的過程中對維數 (dimension) 之依賴並不深,因此我們可自然地推廣至 n 維空間。例如設 z=f(x,y) 為一向上凹之曲面,則(7)式可推廣為

\begin{displaymath}
f \left( \frac{\sum_{i=1}^nx_i}{n},\frac{\sum_{i=1}^ny_i}{n} \right)
\leq \frac{1}{n} \sum_{i=1}^n f(x_i,y_i)
\eqno{(16)}
\end{displaymath}

或用向量之形式 $\vec{x}_i=(x_i,y_i)$

\begin{displaymath}
f \left( \frac{1}{n} \sum_{i=1}^n \vec{x}_i \right)
\leq \frac{1}{n} \sum_{i=1}^n f(\vec{x}_i)
\eqno (16)'
\end{displaymath}

另一個方向的推廣則是想像粒子數目增加至無窮多個 $(n \rightarrow \infty)$,如此我們便可以從離散型過渡到連續型,表記如下:

\begin{displaymath}
\mbox{{\fontfamily{cwM1}\fontseries{m}\selectfont \char 127}...
...family{cwM0}\fontseries{m}\selectfont \char 125}}
\eqno{(17)}
\end{displaymath}

這就是我們在數學上,尤其是分析學思想的過程而需要克服的問題──「收斂性」,即無窮級數或積分是否有意義(即是否收斂)。

在區間 [a,b] 我們可以取分割點

\begin{displaymath}
x_k = a+\frac{k}{n}(b-a),\quad k=0,\cdots ,n
\eqno{(18)}
\end{displaymath}

由(6)式知

\begin{displaymath}
\begin{eqalign}
\lefteqn{f \left( \frac{p(x_0)\varphi(x_0)+\...
...))}{p(x_0)+p(x_1)+\cdots+p(x_{n-1})}
\end{eqalign} \eqno{(19)}
\end{displaymath}

將上式表為 Riemann 和之形式

\begin{displaymath}
f \left[ \frac{\sum p(x_k)\varphi(x_k)\bigtriangleup x_k}{\s...
...bigtriangleup x_k}{\sum p(x_k)\bigtriangleup x_k}
\eqno{(20)}
\end{displaymath}

再取極限 $n\rightarrow\infty$,我們就有積分形式的 Jensen 不等式。

定理(Jensen 不等式一)
p 滿足 $\int_a^b p(x)dx > 0$,且 f 為一凸函數,則

\begin{displaymath}
f \left( \frac{\int_a^bp(x)\varphi(x)dx}{\int_a^bp(x)dx} \ri...
...frac{\int_a^bp(x)f(\varphi(x))dx}{\int_a^bp(x)dx}
\eqno{(21)}
\end{displaymath}

更一般情形則將區間 [a,b] 代換為任意可測集合 A ( $[a,b] \rightarrow A$)

定理(Jensen 不等式二)

\begin{displaymath}
f \left( \frac{\int_A p\varphi dx}{\int_A pdx} \right)
\leq \frac{\int_A pf(\varphi)dx}{\int_Apdx}
\eqno{(22)}
\end{displaymath}

讀者若有機率或測度 (measure) 之概念,則可將 p 視為一密度函數,故有

定理(Jensen 不等式三)

\begin{displaymath}
f \left( \frac{\int_A \varphi du}{\int_A du} \right)
\leq \frac{\int_A f(\varphi)du}{\int_A du}
\eqno{(23)}
\end{displaymath}

作個簡單的習題,其實就是例題 1 之推廣

例題 2: $\alpha_i>0$, $\xi_i>0$, $\sum_{i=1}^{\infty} \alpha_i = 1$,試證

\begin{displaymath}
\prod_{i=1}^{\infty} \xi_i^{\alpha_i}
\leq \sum_{i=1}^{\infty} \alpha_i \xi_i .
\end{displaymath}

   

上頁 12345 次頁

回頁首
 
(若有指正、疑問……,可以在此 留言寫信 給我們。)
EpisteMath

EpisteMath (c) 2000 中央研究院數學所、台大數學系
各網頁文章內容之著作權為原著作人所有


編輯:黃信元 / 繪圖:張琇惠、簡立欣 最後修改日期:4/26/2002