共役事前分布について

定義など少し混乱気味になって、調べてみたので書いてみました。

定義

パラメトリックな確率分布の族 \(\{p(\theta); \theta\in\Theta\}\) を考える。確率変数 \(X\) の従う分布が \(p(x|\theta)\) のとき（もしくはそのように仮定するとき）、ベイズの定理より事後分布は

\begin{align*}
p(\theta|x)\propto p(x|\theta)p(\theta)
\end{align*}

となるが、このとき事前分布 \(p(\theta)\) と事後分布 \(p(\theta|x)\) が同じ分布族に属するときに \(p(\theta)\) は \(p(x|\theta)\) の共役事前分布であるという。同じ分布族に属するので、事前パラメータ \(\theta_0\) とデータ \(x\) が決定されると事後パラメータ \(\tilde\theta\) は \(\theta_0, x\) の関数として\(\tilde\theta(\theta_0, x)\) と書ける。

複数のデータ

一般に、iidなデータが複数ある場合、尤度に事前分布をかけることで
\begin{align*}
p(\theta|x_1,\cdots,x_n)&\propto p(x_1,\cdots,x_n|\theta)\cdot p(\theta)\\
&=p(\theta)\prod_{i=1}^np(x_i|\theta)
\end{align*}
データを１つずつ追加していくとパラメータが逐次変化していくイメージでしょうか。以下のような感じ。

つまり、一個のデータの場合の事後パラメータがわかれば、あとは機械的に \(n\) 個のデータの場合に拡張できる。

\(n\)個のデータを食わせたことによって得られる \(\theta_n\) は明らかにデータを食わせる順番に依存してはいけない。こう考えると、共役事前分布が存在する確率分布のクラスはかなり限定されそう（このへんはよくわからないけど例えば指数関数族とか？）

モチベーション

なぜこういったものを考えるのか。

事後分布の解析的な導出を行うために必要。
ギブスサンプラーで効率的にMCMCするために必要。

すぐに思いつくのはこのくらいですが、他にもあるでしょうか？？？

共役事前分布の例

最後にいくつかの有名な例を挙げておきます。

データの分布	パラメータ　 \(\theta\;\;\)	共役事前分布	事前パラメータ	事後パラメータ 1データ	事後パラメータ nデータ
ポアソン分布	\(\lambda\)	ガンマ分布	\(\alpha, \beta\)	\(\alpha+x, \beta+1\)	\(\alpha+\sum_{i=1}^nx_i,\beta+n\)
多項分布	\(\{p_i\}\)	ディリクレ分布	\(\{\alpha_i\}\)	\(\alpha_i+1\) (iが選ばれた時; それ以外はそのまま)	\(\{\alpha_i+n_i\}\) ただし、\(n_i\) は iが選ばれた回数
指数分布	\(\lambda\)	ガンマ分布	\(\alpha,\beta\)	\(\alpha+1, \beta+x\)	\(\alpha+n, \beta+\sum_{i=1}^nx_i\)