確率論入門
黒木 玄
2017年7月5日版 (2017年7月5日作成)
要約. このノートでは, 測度論を可能な限り用いずに, 期待値汎函数 E[] に関する一般的な性質のみを仮定して, Jensenの不等式, 大数の(弱)法則, 中心極限定理を示す.
確率変数と確率
このノートにおいては, X1,X2,…,Xn が(実数値の) 確率変数 の組であるとは, 実数 x1,x2,…,xn の適切なクラス(この点はわざと曖昧にしておく)に属する複素数値函数 f=f(x1,x2,…,xn) に対して複素数 E[f]=E[f(X1,X2,…,Xn)] を対応させる汎函数 E[] が与えられていて, 以下の条件が成立していることであると定める:
-
E[] は 線形 である. すなわち, 任意の f=f(x1,…,xn), g=g(x1,…,xn) と複素数 α,β に対して
E[αf+βg]=αE[f]+βE[g]
が成立している.
-
E[] は 単調 である. すなわち, f≦g (すべての点でこの不等式が成立している)ならば E[f]≦E[g] が成立している.
-
E[] は 規格化 されている. すなわち, 定数函数 c に対して E[c]=c が成立している.
f=f(X1,…,Xn) をも確率変数と呼ぶことにする. E[] を確率変数の 期待値汎函数 と呼ぶ. E[f] を確率変数 f の 期待値 もしくは 平均 と呼ぶ.
以下, X1,…,Xn は確率変数の組であると仮定する.
Rn の適切なクラス(この点はわざと曖昧なままにしておく)に属する部分集合 A に対して, A 上で 1 になり, A の外で 0 になる函数を 1A と書く:
1A(x1,…,xn)={10((x1,…,xn)∈A)((x1,…,xn)∉A).
(X1,…,Xn)∈A となる 確率 P((X1,…,Xn)∈A) を
P((X1,…,Xn)∈A)=E[1A]=E[1A(X1,…,Xn)]
と定める. 0≦1A≦1 なので, 期待値汎函数の単調性と規格化条件より, 確率は常に0以上1以下になることがわかる.
例. 期待値汎函数を
E[f(X)]=16∑k=16f(k)
と構成することによって、確率変数 X を定めることができる. このとき X∈{k} となる確率, すなわち X=k となる確率は
P(X=k)=16,k=1,2,3,4,5,6
になる. これは確率変数 X がサイコロの数学的モデル化になっていることを意味している. 例終
一般に実数列 a1,a2,… と非負の実数列 p1,p2,… で ∑∞k=1pk=1 を満たすものが与えられたとき,
E[f(X)]=∑k=1∞f(ak)pk
によって確率変数 X を定めることができる. このようにして定められた確率変数を 離散型確率変数 と呼ぶ. たとえば上のサイコロのモデル化は離散型確率変数である.
ρ(x1,…,xn) は 0 以上の実数に値を持つ函数であり,
∫⋯∫ρ(x1,…,xn)dx1⋯dxn=1
を満たしていると仮定する. ただし, 積分領域を省略して書いた場合には Rn 全域にわたる積分を意味すると約束しておく. このとき期待値汎函数を
E[f(X1,…,Xn)]=∫⋯∫f(x1,…,xn)ρ(x1,…,xn)dx1⋯dxn
と定めることができる. このとき, (X1,…,Xn) は 確率密度函数 ρ(x1,…,xn) を持つと言う.
例. 確率変数 X が
E[f(X)]=∫∞−∞f(x)e−(x−μ)2/(2σ2)2πσ2−−−−√dx
を満たしているならば, 確率変数 X は平均 μ, 分散 σ2 の 正規分布に従う という. f(x) が多項式函数であれば期待値 E[f(X)] が有限の積分値として well-defined であるが, f(x)=ex2/σ2 のように遠方で急激に増大する函数についてはその期待値 E[f(X)] は無限大になってしまう. 例終
例. 確率変数 X が
E[f(X)]=∫∞−∞f(x)dxπ(1+x2)
を満たしているとき, X は Cauchy分布に従う という. このとき X の期待値
E[X]=1π∫∞−∞xdx1+x2
は積分が絶対収束しないので well-defined ではない. 例終
Jensenの不等式
n=1 で X=X1 であるとする(X は確率変数).
f(x) が上に凸な函数であるとは任意の x,y と0以上1以下の t に対して
(1−t)f(x)+tf(y)≦f((1−t)x+ty)
が成立することだと定める. 逆向きの不等号で下に凸であることを定める. f′′<0 ならば f は上に凸であり, f′′>0 ならば f は上に凸である.
Jensenの不等式. f(x) が上に凸なとき
E[f(X)]≦f(E[X]).
f(x) が下に凸な場合には逆向きの不等式が成立する.
証明. f(x) は上に凸であると仮定し, μ=E[X] とおく. f(x) は上に凸なのである一次函数 a(x−μ)+f(μ) で
f(x)≦a(x−μ)+f(μ)
を満たすものが存在する. ゆえに
E[f(X)]≦E[a(X−μ)+f(μ)]=a(E[X]−μ)+f(μ)=f(E[X]).
1つ目の不等号は期待値汎函数の単調性より. 1つ目の等号は期待値汎函数の線形性と規格化条件より. 2つ目の等号は E[X]=μ より. これで示したい不等式が示された. f(x) が下に凸な場合も同様である. 証明終
注意. 0≦t≦1 のとき
E[f(X)]=(1−t)f(a)+tf(b)
と定めると E[] は期待値汎函数の条件を満たしている. だから, 函数 f(x) が下にもしくは上に凸になるという条件はJensenの不等式の特別な場合になっている. すなわち, Jensenの不等式の主張は, 「Jensenの不等式の特別な場合が成立しているならば, Jensenの不等式が一般的に成立している」という形式になっている. 注意終
例. a1,…,an>0 であるとし,
E[f(X)]=f(a1)+⋯+f(an)n
とおくと, E[] は期待値汎函数の条件を満たしている. ゆえに上に凸な函数 f(x)=logx に関するJensenの不等式より
loga1+⋯+logann≦loga1+⋯+ann.
左辺は log(a1⋯an)1/n に等しく, logx は単調増加函数なので
(a1⋯an)1/n≦a1+⋯+ann.
Jensenの不等式から相加相乗平均の不等式が何の苦労も無しに出て来た! 例終
分散とChebyshevの不等式
X は確率変数であるとする.
X は平均 μ=E[X] と有限の 分散 σ2=E[(X−μ)2]>0 を持つと仮定する. σ=σ2−−√>0 は X の 標準偏差 と呼ばれている.
a>0 に対して, 集合 A を次のように定める:
A={x∈R∣(x−μ)2≧a2}
このとき
(x−μ)2≧a21A(x)={a20((x−μ)2≧a2)(otherwise)
より, 期待値汎函数の単調性を使うと,
σ2=E[(X−μ)2]≧E[a21A]=a2P((X−μ)2≧a2).
したがって,
P((X−μ)2≧a2)≦σ2a2.
これを Chebyshevの不等式 と呼ぶ.
Chebyshevの不等式は
P(|X−μ|≧a)≦σ2a2.
と書き直せる. さらに, a=mσ とおくと
P(|X−μ|≧mσ)≦1m2.
これは確率変数 X の値がその平均から標準偏差の m 倍以上離れる確率が 1/m2 以下になることを意味している.
以上の結果は後で 大数の法則 を証明するために使われる. (このノートでは大数の法則として 弱 法則のみを扱う.)
確率変数の組の同分布性と独立性
確率変数の組 X1,…,Xn が 同分布 であるとは, 任意の i,j と任意の f(x) について
E[f(Xi)]=E[f(Xj)]
が成立することだと定める.
確率変数の組 X1,…,Xn が 独立 であるとは, 任意の f1(x1),…,fn(xn) に対して
E[f1(X1)⋯fn(Xn)]=E[f1(X1)]⋯E[fn(Xn)]
が成立することだ定める.
例. (X1,…,Xn) が確率密度函数 ρ(x1,…,xn) を持つとき,
ρ(x1,…,xn)=ρ1(x1)⋯ρn(xn)
が成立しているならば, X1,…,Xn は独立になる. さらに ρi(x) がすべて互いに等しいならば X1,…,Xn は同分布になる. 例終
確率変数の組 X1,…,Xn が独立でかつ同分布 (independent and identically distributed, i.i.d.) であるとき, X1,…,Xn はサイズ n の サンプル (標本) の数学的モデル化としてよく使われている. そのとき
X1+⋯+Xnn
は サンプル平均 (標本平均) と呼ばれる.
確率変数列 X1,X2,… において任意の n について X1,…,Xn が独立同分布であるとき, X1,X2,… は 独立同分布確率変数列 であるという.
大数の法則
確率変数の組 X1,…,Xn は独立同分布であるとし, X は Xk と同分布の確率変数であるとする.
X は平均 μ=E[X] と有限の 分散 σ2=E[(X−μ)2]>0 を持つと仮定する. σ=σ2−−√>0 とおく.
X1,…,Xn をサイズ n のサンプルとみなすとき, X は母集団分布に従う確率変数だとみなされ, 以上の μ,σ2,σ はそれぞれ 母集団平均, 母集団分散, 母集団標準偏差 と呼ばれる.
サンプル平均を
Mn=X1+⋯+Xnn
と書くことにする.
サンプル平均 Mn も確率変数になる. 確率変数はサイコロのようにランダムに値が変化する変数のことである. サンプル平均はサンプルのランダム抽出をやり直すごとに値が変化する確率変数である.
サンプル平均 Mn の期待値 μn と分散 σ2n を求めよう.
Mn の期待値は μ に一致する:
μn=E[Mn]=1n∑k=1nE[Xk]=1nnμ=μ.
X′k=Xk−μ とおくと, E[X′k]=0 となり, Xk の分散が σ2 で Xk 達が独立であることより,
E[X′kX′l]={σ20(k=l)(k≠l)
となる. ゆえに
σ2n=E[(Mn−μ)2]=E⎡⎣(1n∑k=1nX′k)2⎤⎦=1n2∑k,l=1nE[X′kX′l]=σ2n.
すなわち, サンプル平均の分散は母集団分散のサンプルサイズ分の1になる. 特にサンプル平均の分散はサンプルサイズが大きくなると小さくなる.
Chebyshevの不等式をサンプル平均 Mn に適用すると, 任意の a>0 に対して
P(|Mn−μ|≧a)≦σ2na2=1nσ2a2.
したがって特に
limn→∞P(|Mn−μ|≧a)=0.
これは、どんなに小さな a>0 に対しても, サンプル平均 Mn が母集団平均 μ から a 以上離れる確率がサンプルサイズを大きくする極限で0に近付くことを意味している.
これを 大数の弱法則 という.
正規分布の再生性
平均 0, 分散 1 の正規分布を 標準正規分布 と呼ぶ.
X が標準正規分布に従う確率変数ならば μ∈R, σ>0 に対して Y=μ+σX は平均 0, 分散 σ の正規分布に従う. なぜならば
E[f(Y)]=E[f(μ+σX)]=∫f(μ+σx)e−x2/22π−−√dx=∫f(y)e−(y−μ)2/(2σ2)2π−−√dyσ=∫f(y)e−(y−μ)2/(2σ2)2πσ2−−−−√dy
3つ目の等号で x=(y−μ)/σ とおいた. これは Y が平均 μ, 分散 σ2 の正規分布に従うことを意味する.
一般に確率変数 X の平均が 0 で分散が 1 のとき, Y=μ+σX は平均が 0 で分散が σ2 の確率変数になる.
X,Y は独立な確率変数の組であり, どちらも標準正規分布に従っていると仮定する. このとき任意の a,b∈R, (a,b)≠(0,0) に対して Z=aX+bY は平均 0, 分散 a2+b2 の標準正規分布に従う確率変数になる. この結果を 正規分布の再生性 という. その証明は以下の通り: a≠0 と仮定する.
E[f(Z)]=E[f(aX+bY)]=∬f(ax+by)e−(x2+y2)/2(2π)2−−−−√dxdy=∬f(z)e−(z2+w2)/(2(a2+b2))(2π)2−−−−√dzdwz2+b2=∫f(z)e−z2/(2(a2+b2))(2π)2−−−−√2(a2+b2)π−−−−−−−−−√a2+b2dz=∫f(z)e−z2/(2(a2+b2))2π(a2+b2)−−−−−−−−−√dz
3つ目の等号で
x=az−bwa2+b2,y=bz+awa2+b2
とおくと,
ax+by=z,x2+y2=z2+w2a2+b2,dx∧dy=dz∧dwa2+b2
となることを使った. 4つ目の等号では w に関する積分を一般的に成立しているGauss積分の公式
∫∞−∞e−w2/αdw=απ−−−√(α>0)
を使って行った.
一般に独立な確率変数 X,Y の分散がそれぞれ σ2X,σ2y のとき, X+Y の分散は σ2X+σ2Y になる.
正規分布の再生性から特に確率変数の組 Y1,…,Yn が独立同分布でそれぞれが標準正規分布に従うとき,
Zn=Y1+⋯+Ynn−−√
も標準正規分布に従うことがわかる. Y1+⋯+Yn は平均 0, 分散 n の正規分布に従い, それを n−−√ で割れば分散が 1 になる. この形での正規分布の再生性を中心極限定理の証明で利用する.
中心極限定理
確率変数達 X1,X2,… と Y1,Y2,… の全体は独立であるとし, X1,X2,… は独立同分布であり, Y1,Y2,… も独立同分布であると仮定する. X, Y はそれぞれ Xk, Yk と同分布な確率変数であるとする.
k=1,2,3 に対して, E[Xk],E[Yk] は well-defined でかつ E[|Y|3],E[|Y|3] は有限の値になると仮定し, X, Y の分散はどちらも 0 でないと仮定する.
一般に平均 μ, 分散 σ2 の確率変数 X に対して X′=(X−μ)/σ は平均 0, 分散 1 の確率変数になる. この事実を使って Xk, Yk たちを変換してそれらすべての平均と分散を 0 と 1 にできる. 以下ではこの状況を仮定する.
すなわち, E[Xk]=0, E[X2k]=1, E[|Xk|3]<∞, E[X3k] は well-defined と仮定し, Yk たちも同じ条件を満たしていると仮定する.
f(x) は有限区間の外で 0 になる C3 級函数であるとする.
補題. 以上の条件のもとで n→∞ のとき
E[f(X1+⋯+Xnn−−√)]−E[f(Y1+⋯+Ynn−−√)]→0
証明. Taylor の定理より,
f(a+h)=f(a)+f′(a)h+f′′(a)h22+f′′′(a+θa,hh)h36,
となる. ここで 0<θa,h<1 である.
f は有限区間の外で 0 になる C3 級函数なので, f′′′(x) は有限区間の外で 0 になる連続函数になる. ゆえに |f′′′(x)|/6 は最大値 M を持ち, 上のTaylor定理から得られた等式の右辺の最後の項の絶対値は M|h|3 以下になる.
Tayolorの定理から得られる公式を, 独立な確率変数の組 A,H,K で E[H]=E[K]=0, E[H2]=E[K2]=1, E[|H|3],E[|K|3]≦C∞ で E[H3],E[K3] が well-defined なものに適用してみよう.
E[f(A+Hn−−√)]=E[f(A)]+E[f′(A)]E[H]n−−√+E[f′′(A)]E[H2]2n+E[f′′′(A+θA,H/n√H/n−−√)H3]6nn−−√=E[f(A)]+E[f′′(A)]2n+E[f′′′(A+θA,H/n√H/n−−√)H3]6nn−−√.
最後の項の絶対値は次のように上からおさえられる:
∣∣∣E[f′′′(A+θA,H/n√H/n−−√)H3]6nn−−√∣∣∣≦MCnn−−√.
以上をまとめると,
E[f(A+Hn−−√)]=E[f(A)]+E[f′′(A)]2n+R,|R|≦MCnn−−√.
同様の結果が K についても得られるので,
E[f(A+Kn−−√)]=E[f(A)]+E[f′′(A)]2n+S,|S|≦MCnn−−√.
これらの差を取ることによって
∣∣∣E[f(A+Hn−−√)]−E[f(A+Kn−−√)]∣∣∣≦2MCnn−−√.
この結果を
A=X1+⋯+Xk−1+Yk+1+⋯+Ynn−−√,
H=Xk, K=Yk に適用すると,
∣∣E[f(X1+⋯+Xk+Yk+1+⋯+Ynn√)]−E[f(X1+⋯+Xk−1+Yk+⋯+Ynn√)]∣∣≦2MCnn√.
これを k=1,…,n について足し上げることによって
∣∣∣E[f(X1+⋯+Xnn−−√)]−E[f(Y1+⋯+Ynn−−√)]∣∣∣≦2MCn−−√.
を得る. これの左辺は n→∞ で 0 に収束する. 証明終
定理 (中心極限定理). X1,X2,… が独立同分布な確率変数列であり, E[Xk]=0, E[X2k]=1, E[|Xk|3]<∞, E[X3k] は well-defined という条件を満たしていると仮定する. このとき有限区間の外で 0 になるような C3 級函数 f(x) について
limn→∞E[f(X1+⋯+Xnn−−√)]=∫∞−∞f(y)e−y2/22π−−√dy.
証明. 独立同分布な Yk 達が標準正規分布に従っていると仮定する. このとき正規分布の再生性を使うと,
E[f(Y1+⋯+Ynn−−√)]=∫∞−∞f(y)e−y2/22π−−√dy.
なので, 上の補題から示したい結果が得られる. 証明終
系 (中心極限定理). X1,X2,… は独立同分布な確率変数列であり, 各 Xk は平均 μ と有限の分散 σ2>0 を持ち, E[|Xk|3]<∞ で E[X3] が存在すると仮定し,
Zn=X1+⋯+Xn−nμnσ
とおく. Zn の平均と分散はそれぞれ 0 と 1 になる. このとき, 有限区間の外で0になる C3 函数 f(x) に対して
limn→∞E[f(Zn)]=∫∞−∞f(y)e−y2/22π−−√dy.
証明. X′k=(Xk−μ)/σ に上の定理を適用すればこの結果が得られる. 証明終
系 (中心極限定理). Xk,Zn は上の系と同じものであるとする. このとき, 任意の有界連続函数 f(x) に対して
limn→∞E[f(Zn)]=∫∞−∞f(y)e−y2/22π−−√dy.
証明. Y は標準正規分布に従う確率変数であるとする. limn→∞E[f(Zn)]=E[f(Y)] を示せばよい.
任意に ε>0 を取る. M は |f(x)| の上限より真に大きな実数であるとする. 任意の m=1,2,3,… に対して, ある C3 級函数 gm(x) で,
-
|x|≦m ならば |f(x)−gm(x)|≦ε,
-
|x|≧m+1 ならば gm(x)=0,
-
任意の x∈R について |gm|≦M
を満たすものが存在する. C3 級函数 hm(x) で
-
|x|≦m−1 ならば 2M−hm(x)=ε,
-
m−1≦|x|≦m ならば ε≦2M−hm(x)≦2M,
-
|x|≧m ならば 2M−hm(x)=2M すなわち hm(x)=0.
を満たすものを取れる. gm(x) と hm(x) に対しては上の系が適用できることに注意せよ.
(1) |x|≦m ならば
|f(x)−gm(x)|≦ε≦2M−hm(x)
であり, |x|≧m ならば
|f(x)−gm(x)|≦2M=2M−hm(x)
なので
|f−gm|≦2M−hm.
hm(x) には上の系が適用できるので, n→∞ のとき
E[|f(Zn)−gm(Zn)|]≦2M−E[hm(Zn)]→2M−E[hm(Y)].
ゆえに
lim supn→∞E[|f(Zn)−gm(Zn)|]≦E[2M−hm(Y)]≦ε+2MP(|Y|>m−1)
(2) gm(x) には上の系が適用できるので,
limn→∞|E[gm(Zn)]−E[gm(Y)]|=0.
(3) さらに gm(x) の定義より
E[|f(Y)−gm(Y)|]≦ε+2MP(|Y|>m−1).
三角不等式を使って, 以上の(1),(2),(3)を合わせると
lim supn→∞|E[f(Zn)]−E[f(Y)]|≦2ε+4MP(|Y|>m−1)
を得る. 正規分布の性質より m→∞ で P(|Y|>m−1)→0 なので
lim supn→∞|E[f(Zn)]−E[f(Y)]|≦2ε.
ε>0 は任意だったので
limn→∞E[f(Zn)]=E[f(Y)]
となることがわかる. 証明終
結語
以上で示したように, 測度論を表に出さずに, 期待値汎函数に関する基本的な性質のみを仮定すれば, 統計学入門で必要になる「大数の(弱)法則」と「中心極限定理」を証明可能である.
なお, 筆者の個人的な意見では, 大数の法則と中心極限定理の他にSanovの定理が基本的である. Sanovの定理については次のリンク先のノートを参照してほしい.
https://genkuroki.github.io/documents/20160616KullbackLeibler.pdf
期待値汎函数 E[] を中心に議論を展開することは, 確率論と量子論の類似性を明瞭にするためにも役に立つ. 量子論では規格化された純粋状態 |v⟩ に対して, 演算子 A の期待値が
⟨A⟩=⟨v|A|v⟩
と定義される. これは A について線形であり, 規格化条件 ⟨c⟩=c (c は定数)も満たしている. ⟨⟩ はこのノートにおける E[] の量子論における類似物になっている.
確率論 |
量子論 |
測度 |
状態 |
確率変数 |
演算子 |
E[] |
⟨⟩ |
このノートでは省略したGauss積分の計算の仕方については次のノートに詳しい解説がある.
https://genkuroki.github.io/documents/20160501StirlingFormula.pdf
余談. このノートはAtomエディターに整備したmarkdownのリアルタイムプレビュー環境のテストのために執筆された. さすがにこれだけ長くなってしまうと、リアルタイムプレビューはとても重い. 素直に LATEX を使って執筆した方が良かったかもしれない.
余談2. さらにこの原稿は https://hackmd.io にアップロードされ, hackmd に合わせて手直しされた. それによって hackmd も数式を使いたい人にとって十分に実用的なサービスであることがわかった.