English

ベイズファクターによる仮説検定

ベイズ統計に基づく仮説検定の手法として、ベイズファクターと呼ばれる量を用いるものがある。頻度論による検定の問題を克服する手段としてベイズが挙げられるときは、ベイズファクターのような手法を想定している場面が多いと思う。仕事ではこれまで頻度論による検定で間に合ってしまう場面が多くあまり触れてこなかったが、最近になってようやく勉強したので、簡単にまとめておきたい。

仮説検定の方法

ベイズファクターによる検定を理解するために、古典的な頻度論による手法や、ベイズ信用区間を利用したものとの比較をしてみる。解析的に計算可能な例を持ち出すのがわかりやすいと思うので、単純なコイン投げ実験を考えてみよう。コインを $N$ 回投げて、表が $m$ 回でたとき、このコインに歪みがないかどうかを判定したいとする。表の出る確率を $\mu$ とすると、

のどちらを選ぶかという問題になる。

頻度論の仮説検定

まずは頻度論による検定を簡単にまとめてみる。頻度論では $H_0$ のもとで検定統計量の従う確率分布を求め、観測値が得られる確率 (p-value) を計算する。コイン投げの場合、二項検定カイ二乗検定を実行すればよいだろう。P-value を計算し、それが事前に決めた基準値より小さい場合に、背理法的に $H_0$ を棄却する。

頻度論による検定の特徴を挙げてみる:

次にベイズ統計を使った方法の一つである、信用区間を使った検定について見ていこう。

ベイズ信用区間

ベイズ統計を使った検定方法の一つに、信用区間を利用するものがある。これは統計モデルのパラメータ推定の結果を検定に応用する手法である。

ここではコイン投げ実験を二項分布でモデリングすることにしよう。表の出る確率 $\mu$ の事前分布はベータ分布に設定する $$ \begin{aligned} m &\sim \mathrm{B}(N, \mu), \\ \mu &\sim \mathrm{Beta}(a, b). \end{aligned} $$

ここで $a$, $b$ はハイパーパラメータである。よく知られているように、ベータ分布は二項分布に対する共役事前分布になっており、事後分布が解析的に計算できる: $$ \mu \sim \mathrm{Beta}(m+a, N-m+b). $$

仮説検定として使う際は、事後分布で $\mu$ が高い確率で含まれている区間(信用区間)を計算し、そこに帰無仮説が含まれているかどうかを見る。今回の例では帰無仮説は $\mu=0.5$ であり、この値が信用区間の外にあれば帰無仮説を棄却することができる。逆に区間の内側にあれば、データが積極的に対立仮説を支持するとは言えないということになる。

この信用区間を使った方法には以下の特徴がある

ベイズファクター

概要

信用区間を使った方法は、ベイズ統計を使っているとはいえ、実質は確率分布のパラメータ推定だった。頻度論よりも得られた区間推定の結果が解釈しやすいなどの特徴はあるが、帰無仮説を積極的に採択する用途には向かないという事情は同じであった。

一方、ベイズファクターはベイズ統計のモデル比較の考え方を用いる手法であり、この困難を克服する事ができる。

我々が本当に評価したいのは、データ $\mathcal{D}$ が与えられた下での、仮説 $H$ の事後確率 $p(H|\mathcal{D})$ である。ベイズでは仮説は統計モデルで表す必要がある。ここではそれを $\mathcal{M}$ としよう。ベイズの定理を用いるとモデル $\mathcal{M}$ の事後確率は $$ p(\mathcal{M}|\mathcal{D}) = \frac{p(\mathcal{D}|\mathcal{M})p(\mathcal{M})}{p(\mathcal{D})} $$ とかける。帰無仮説と対立仮説でこの量の比を取ると

$$ \frac{p(\mathcal{M}_1|\mathcal{D})}{p(\mathcal{M}_0|\mathcal{D})} = \frac{p(\mathcal{D}|\mathcal{M}_1)}{p(\mathcal{D}|\mathcal{M}_0)} \times \frac{p(\mathcal{M}_1)}{p(\mathcal{M}_0)} $$ となる。この右辺第一項 $$ BF_{10} = \frac{p(\mathcal{D}|\mathcal{M}_1)}{p(\mathcal{D}|\mathcal{M}_0)} $$ がベイズファクターと呼ばれる量であり、marginal likelihood $p(\mathcal{D}|\mathcal{M})$ の比になっている。$p(\mathcal{M}_1)/p(\mathcal{M}_0)$ はそれぞれのモデルに対する事前の信念の比であり、ベイズファクターが計算できると、このオッズをデータで更新できるということだ。

特に、事前オッズを 1 にすれば、ベイズファクターが1からどれだけ離れているかで、仮説を検定できる。1 より十分大きければ対立仮説を採択し、逆に1より十分小さければ帰無仮説を採択する。これまでの手法はいわばヒューリスティックなのだが、ベイズファクターはモデルの事後確率を、確率の法則に従って自然に評価しているという点で、理論的には素直で気持ちが良い。

ベイズファクターも検定である以上、値がいくつ以上なら仮説を採択・棄却するのかは業界や現場で基準を決める必要がある。例えば Kass and Raftery (1995) によく使われる基準がいくつかまとめられている。

Marginal likelihood

ベイズファクターで肝になるのは、marginal likelihood である。コイン投げの例を使ってこれを計算してみよう。信用区間の場合と同様に、コイン投げを二項分布でモデルすると、$\mathcal{M}_0$ のもとでは $\mu=1/2$ なので $$ p(\mathcal{D}|\mathcal{M}_0) = \binom{N}{m}2^{-N} $$ となる。

一方、$\mathcal{M}_1$ の場合は話が少々複雑になる。$\mu \neq 1/2$ は連続量なので、以下の積分を実行しなければならない: $$ p(\mathcal{D}|\mathcal{M}_1) = \int_0^1d\mu\ p(\mathcal{D}|\mathcal{M}_1, \mu)p(\mu|\mathcal{M}_1). $$

尤度 $p(\mathcal{D}|\mathcal{M}_1, \mu)$ には前と同様二項分布 $$ p(\mathcal{D}|\mathcal{M}_1, \mu) = \binom{N}{m}\mu^m(1-\mu)^{N-m}, $$ を採用し、$\mu$ の事前分布 $p(\mu|\mathcal{M}_1)$ にはベータ分布 $\mathrm{Beta}(a, b)$ を仮定してみよう。ベータ分布の密度関数は $$ p(\mu|\mathcal{M}_1) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} $$ である。すると marginal likelihood は解析的に計算できて $$ p(\mathcal{D}|\mathcal{M}_1) = \frac{N!}{m!(N-m)!}\cdot\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\cdot\frac{\Gamma(m+a)\Gamma(N-m+b)}{\Gamma(a+b+N)} $$ となることがわかる。特に $m, N-m \gg a, b$ の場合は $$ \ln p(\mathcal{D}|\mathcal{M}_1) \simeq \ln\left(\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\right) +(a-1)\ln m+(b-1)\ln(N-m)-(a+b-1)\ln N, $$ が得られる。

事前分布への依存

この式を見ると分かる通り、marginal likelihood は、$\mu$ の事前分布 $p(\mu|\mathcal{M}_1)$ に依存する。特に、サンプル数が大きくなっても事前分布の影響が残り続ける。もちろん事前分布としてベータ分布以外のものを選んでも良いので、この式で表されるよりもさらに大きい自由度がある。

ベイズ信用区間の場合、サンプル数を増やしていくと事前分布の影響は減衰する傾向にあった。一方 marginal likelihood は尤度に事前分布をかけて積分した量なので、事前分布が狭すぎても広すぎても小さな値になってしまう。1 そのため、例えば安易に無情報な分布を用いると、対立仮説の marginal likelihood が小さく評価され、帰無仮説がより支持されるようになる。

このような性質があるため、ベイズファクターを仮説検定に用いる際には、事前分布の設計にドメイン知識を活用したり、コミュニティでの合意が取れているような分布を利用したりというのが大事になる。また事前分布の選択に関する sensitivity analysis も必要となる。一応この負担を軽減するために default prior と呼ばれる分布が設計されているらしいが、それらを盲目的に使うことへの批判もある。Reddit にも色々と事前分布に関する議論があるし、もう少し実務に近いところだと、BingのA/Bテストの事例でも、過去の実験結果を使って事前分布を構成することの重要性が主張されている。

その他の特徴

事前分布への敏感性以外に、ベイズファクターの特徴をまとめてみよう

まとめ

以上の内容を表にまとめてみた

帰無仮説の採択任意の仮説同士の比較Prior への依存計算コスト
頻度論不可不可-
ベイズ信用区間不可不可一般に大
ベイズファクター一般に大

個人的には、計算や sensitivity analysis の大変さを考慮すると、実用上ベイズファクターを使うのは、帰無仮説を採択したいなど他の手法では分析ができないケースに限られそうという印象。

よくあるRCTの効果検証であれば、効果量とサンプルサイズ設計をしっかりした上で頻度論の仮説検定を使うのが楽だと思う。

References


1

例えばPRMLの三章に直感的な説明がある。