從一個賭徒問題談統計推測之重要性

．原載於數學傳播十一卷一期
．作者當時任教於台大數學系

‧註釋

從一個賭徒問題談統計推測之重要性

姚景星

首先我們來回顧賭博的起源，早在1600B.C.於埃及以及1300B.C.於中國均有關於賭博遊戲之記載。爾後在十七世紀，法國貴族社會流行以投骰子作賭博，於投骰子中，反覆投幾回後經驗覺得有些結果不太一樣。因此對當時之哲學者又是數學者間物理學者之 Pascal 及 Fermat 提出質疑且請求解釋。於是這些學者乃開創了機率之概念且解出種種的賭博問題。在同時期 Huygens 之著作《骰子賭博之理論》以及 Jakob Bernoulli 之著作《推論法》等書均涉及機率理論之討論。到 Laplace（1749-1827）時完成古典機率論。

現在我們考慮下列一個賭博問題「今有一個圓銅板（不一定公正），設正面及反面發生之機率各為 $p,q(=1-p),0\leq p\leq 1$ 。今有一賭徒持有資金 a 元，而以金額 b 元賭「正面發生」，若猜中時，莊家賠 b 元，若未猜中則莊家贏 b 元（即賭徒輸 b 元），如此繼續打賭但每回打賭之金額不得超過該回賭博前之持有金額。設 N 回後，賭徒之財產為 Z_N 時對賭徒之效用 (utility) ^註1 為 $u(Z_N) = \log Z_n$ （以 e 作底）。求使此期望值為最大之賭博政策（即 N 回之每回最適打賭金額）？」

此問題屬於動態計畫之問題，可利用最適性原理如下解此問題。此問題是由初期財產 a 元及計畫期間 N 回（以 (a,N) 表示此問題），求出每回採用之最適打賭金額，及其最大利益 f_N(a)，因此若初期財產為 x 元，沒有打賭（期間0）時之最大利益為 $f_0(x)=u(x)=\log x$ （因由題意賭徒財產 x 元時期效用為 $U(x)=\log x$ ）。

第一次打賭金額b元， $0 \leq b\leq a$ 時投出圓銅板結果，設其持有財產由 a 元變為 T(a,b) 元，T(a,b) 為如下：

$\begin{displaymath} T(a,b)=\left\{ \begin{array}{l} a+b\mbox{, {\fontfamily{cwM1... ...cwM1}\fontseries{m}\selectfont \char 222})} \end{array}\right. \end{displaymath}$

第一回打賭後賭徒持有財產為 T(a,b)，此為第二回至第 N 回之 N-1 回期間之初期財產，故對此問題 (T(a,n),N-1) 之最大利益為 f_N-1(T(a,b))，因為 T(a,b) 有兩種情形（正、反面）各以機率 p,q 發生，故第一回打賭 b 元後第二回到第 N 回之 N-1 回期間之最大利益期望值為 pf_N-1(a+b)+qf_N-1(a-b)。因此對問題 (a,N) 之第一回打賭金額 b 決定使 pf_N-1(a+b)+qf_N-1(a-b) 之值最大者，如此可得下列式（最適性原理）

$\begin{displaymath} f_N(a)=\max_{0\leq b\leq a}[pf_{N-1}(a+b)+qf_{N-1}(a-b)] , \quad N=1,2,3,\cdots \eqno{(1)} \end{displaymath}$

如上述使(1)是成立之 b 為問題 (a,N) 之第一回打賭的最適金額，但無法直接由(1)式求出，可利用(1)之遞迴關係式如下解之。下列分為兩種情形考慮。

(A) $p>\frac{1}{2}$ 時，由 N=1 開始，解出問題 (x,1)，即初期持有財產為 x 元只打賭一回，求第一回之最適打賭金額及函數 f₁(x)。因為(1)式 a 改為 x，N=1 亦成立且 $f_0(x)=\log x$ ，故下式成立

$\begin{eqnarray*} f_1(x)&=&\max_{0\leq b\leq x}[pf_{0}(x+b)+qf_{0}(x-b)]\\ &=&\max_{0\leq b\leq x}[p\log(x+b)+q\log(x-b)] \end{eqnarray*}$

利用微分

$\begin{displaymath} \frac d{db}[p\log(x+b)+q\log(x-b)]=\frac p{x+b}-\frac q{x-b}=0 \end{displaymath}$

可求得 b 值（設為 b₁^*(x)）及 f₁(x) 如下：

$\begin{displaymath} \begin{eqalign} b_1^*(x) &= (p-q)x, \\ f_1(x) &= \log x + \... ...}\fontseries{m}\selectfont \char 77})} \end{eqalign}\eqno{(2)} \end{displaymath}$

在此 $\mbox{c}(p) = p\log{2p} + q\log{2q}$ 。

其次考慮問題 (x,2)，即在(1)式中 a=x, N=2 及由(2)可得

$\begin{eqnarray*} f_2(x)&=&\max_{0\leq b\leq x}[pf_1(x+b)+qf_1(x-b)]\\ &=&\max_{0\leq b\leq x}[p\log(x+b)+q\log(x-b)+c(p)] \end{eqnarray*}$

如上利用微分，可求得 b 值（設為 b₂^*(x)）及 f₂(x) 如下：

$\begin{eqnarray*} b_2^*(x)&=&(p-q)x,\\ f_2(x)&=&\log{x}+2c(p)(\mbox{{\fontfamil... ...inus0.1pt{\fontfamily{cwM3}\fontseries{m}\selectfont \char 77}}) \end{eqnarray*}$

如此由歸納法，對問題 (x,n) 可得

$\begin{displaymath} \begin{eqalign} b_n^*(x) &= (p-q)x, \\ f_n(x) &= \log x+nc(... ...tfont \char 77})} \quad n=1,2,\cdots,N \end{eqalign}\eqno{(3)} \end{displaymath}$

即

$\begin{displaymath} \begin{eqalign} f_n(x) &= \max_{0\leq b\leq x}[pf_1(x+b)+qf_... ... &= \log x+nc(p)\\ & n=1,2,\cdots,N \end{eqalign}\eqno{(4)} \end{displaymath}$

利用(3),(4)式可得問題 (a,N) 之最適賭博政策如下。

若 $p>\frac{1}{2}$ 時，設 b₁⁰=b_N^*(a)=(p-q)a，由(4)可得

$\begin{eqnarray*} f_N(a)&=&\max_{0\leq b\leq x}[pf_{N-1}(a+b)+qf_{N-1}(a-b)]\\ &=&pf_{N-1}(a+b_1^0)+qf_{N-1}(a-b_1^0)\\ &=&\log a +Nc(p) \end{eqnarray*}$

故第一回打賭金額採用 b₁⁰=(p-q)a，即持有財產 a 之 (p-q) 倍。第一回打賭完畢後持有財產變為 T(a,b₁⁰)，此為問題 (T(a,b₁⁰),N-1) 之初期持有財產，故由(3),(4)式中設 x=T(a,b₁⁰)，n=N-1， b₂⁰=b_N-1^*(T(a,b₁⁰))=(p-q)T(a,b₁⁰)，即可得問題 (a,N) 之第2回最適打賭金額，如此可得下列結論：

當 $p>\frac{1}{2}$ 時，問題 (a,N) 之最適賭博政策為各回以各回之持有財產之 (p-q) 倍為打賭金額，可得最大利益 $f_N(a) = \log{a}+N_c(p)$ ，以圖表示如下：

(B) $p \leq \frac{1}{2}$ 時，同上方法可得 b_n^*(x)=0， $f_n(x)=\log x$ ， n=1,2,3,…,N 則當 $p \leq \frac{1}{2}$ 時不作打賭。

雖然此問題利用動態計劃已得答案，但在實際問題中 p 值是無法得知。因此除非推測 p 值，否則此問題是無法獲得完全解決的。欲推測 p 值需要利用統計學之「點推測」方法，若得 p 之推測值 $\hat{p}$ 後可作如下決定：

當 $\hat{p}>\frac{1}{2}$ 時採用上述(A)之結論，當 $\hat{p} \leq\frac{1}{2}$ 時採用上述(B)之結論，如此可得此問題之實際解決。

為了討論點推測之方便，先設圓銅板投第 k 回之結果之隨機變數 X_k，當第 k 回投出正面時 X_k=1，反面時 X_k=0,k=1,2,…,M。由題意得知 P_r(X_r=1)=p， P_r(X_r=0)=q=1-p，即

$\begin{displaymath} P_r(X_k=x_k)=p^{x_k}(1-p)^{1-x_k}, \quad x_k=0,1 \end{displaymath}$

為了求 p 之推測值，先獨立投圓銅板 M 回，設其結果為 x₁,x₂,…,x_M（稱為樣本值），其機率，由獨立投擲之性質可得下式

$\begin{displaymath} \begin{eqalign} & P_r(X_1=x_1,X_2=x_2,\cdots X_M=x_M\vert p)... ...x_k},\\ & x_k=0,1, \; k=1,2,\cdots,M \end{eqalign}\eqno{(5)} \end{displaymath}$

定義最概函數 (likelihood function) 如下：

將樣本值 x₁,x₂,…,x_M 固定，定義下列函數：

$\begin{displaymath} \begin{eqalign} & L(p\vert x_1,x_2,\cdots,x_M) \\ &= p^{\... ...^{m-\Sigma_{k=1}^{k}x_k},0\leq p\leq 1 \end{eqalign}\eqno{(6)} \end{displaymath}$

(5)與(6)式之差別是在(5)式中 p 固定 ( $0\leq p\leq1$ )，在(6)式中，x₁, x₂,…,x_M 固定,p 變動，利用(6)式可如下求出 p 之推測值，即求 $\hat{p}$ 使下式成立：

$\begin{displaymath} \begin{eqalign} & \max_{0\leq p\leq 1}L(p\vert x_1,x_2,\cdo... ... &= L(\hat{p}\vert x_1,x_2,\cdots,x_M) \end{eqalign}\eqno{(7)} \end{displaymath}$

此 $\hat{p}$ 稱為 p 之 M.L.E.(maximum likelihood estimate)。(7)之意義如下，因為對任意固定 $p(0\leq p\leq1), L(p\vert x_1,x_2,\cdots,x_M)=P_r(X_1=x_1,X_2=x_2,\cdots ,X_M=x_M\vert p)$ 表示正面出現的機率為 p，稱本值為 x₁,x₂,…,x_M 時之機率,又對任意 $0\leq p\leq1$ ：

$\begin{eqnarray*} & &L(\hat{p}\vert x_1,x_2,\cdots,x_M)\\ &=&P_r(X_1=x_1,X_2=x_... ...x_2,\cdots,x_M)\\ &=&P_r(X_1=x_1,X_2=x_2,\cdots,x_M=X_M\vert p) \end{eqnarray*}$

亦即當正面出現機率為 $\hat{p}$ 時樣本值 x₁,x₂,…,x_M 出現之機率比其他較大。因此以 $\hat{p}$ 推測 p 值較好。

欲求使(6)式為最大之 p 值，可由下式求出：設

$\begin{eqnarray*} & &l(p\vert x_1,x_2,\cdots ,x_M)\\ &=&\log L(p\vert x_1,x_2,\... ...&=&\sum_{k=1}^{M}{x_k\log{p}}+(M-\sum_{k=1}^{M}{x_k})\log{(1-p)} \end{eqnarray*}$

$\begin{displaymath} \frac{dl}{dp}=\frac{1}{p}{\sum_{k=1}^{M}{x_k}}-\frac{1}{1-p}(M-\sum_{k=1}^{M}{x_k})=0 \end{displaymath}$

則得 $\hat{p}=\frac{1}{M}{\sum_{k=1}^{M}{x_k}}$ ，此為 M 回中出現正面之比值。

此推測之統計量 $\hat{p} = \frac{1}{M}{\sum_{k=1}^{M}{X_k}}$ （隨機變數）尚有其他很好之性質，例如不偏性、有效性、一致性、充分性等，因為篇幅關係在此不予討論，可參考統計學中之點推測。因此用 $p=\frac{1}{M}{\sum_{k=1}^{M}{x_k}}$ 推測 p 是很好之推測值。

有很多實際問題雖然已建立模型(如上例最適賭博政策)，且此模型中含有為之參數無法完全解決時通常利用統計學中推測方法可獲得解決。這就是為何我們需要學統計學的理由之一。

: 1.姚景星、劉睦雄編著，《作業研究》（松崗電腦公司）
: 2.Robert V. Hogg 著，楊宏章譯，《數理統計》（曉園出版社）

對外搜尋關鍵字：
．Pascal
．Fermat
．Huygens
．Jakob Bernoulli
．Laplace


	（若有指正、疑問……，可以在此留言或寫信給我們。）

EpisteMath (c) 2000 中央研究院數學所、台大數學系
各網頁文章內容之著作權為原著作人所有

編輯：劉建明 ∕ 校對：黃怡碧 ∕ 繪圖：簡立欣

最後修改日期：4/26/2002