; oi: 今更聞けない基本的な確率分布のまとめ

2015年6月28日日曜日

今更聞けない基本的な確率分布のまとめ

忘れがちな以下の4つの確率分布についてまとめておく。

ベルヌーイ分布 (Bernoulli distribution)

確率 $\lambda$で 1 を、確率 $1-\lambda$ で 0 をとる、離散確率分布である。

$P(x\mid \lambda) = \lambda^x(1-\lambda)^{(1-x)}$ for $ x \in \{0,1\} $

Takes a single parameter $\lambda \in [0,1] $

カテゴリカル分布 (Categorical distribution

ベルヌーイ分布を一般化した確率分布で、二値ではなく、$K$値の場合をとる離散確率分布である。
※ベルヌーイ分布はカテゴリカル分布のカテゴリ数が2の場合ともいえる。
※ どういうわけか、日本語Wikipediaにはカテゴリカル分布の記事は存在しないため、多項分布と混乱されやすい。

$$P(x\mid \boldsymbol{\lambda}) = \displaystyle \prod_{ i = 0 }^K \lambda_i^{x_i} $$

Takes $K$parameters $\lambda_i \in [0,1] $ where $\displaystyle \sum_{ i = 1 }^{ K } \lambda_i = 1$

二項分布 (Binomial distribution)

n 個の独立なベルヌーイ試行の「成功」の数の確率分布であり、各試行の「成功」確率$\lambda$は同じである。
※ベルヌーイ分布は二項分布における試行回数が1回の場合ともいえる。

$$
P(x\mid \lambda, n) = {}_n \mathrm{ C }_x \lambda^x(1-\lambda)^{(n-x)}
$$
$${}_n \mathrm{ C }_x = \frac{ n! }{ x! ( n - x )! }$$

多項分布 (Multinomial distribution)

二項分布を一般化した確率分布である。多項分布では、各試行の結果は固定の有限個($K$個)の値をとる。
※カテゴリカル分布は多項分布の試行回数が1回の場合ともいえる。
※二項分布は多項分布のK=2の場合である。

$$
P(x\mid \boldsymbol{\lambda}, n) =
  \begin{cases}
     \frac{ n! }{ x_1! x_2! \cdots x_k! } \displaystyle \prod_{ i = 1 }^K \lambda_i^{x_i}   & (when \sum_{ i = 1 }^{ K } x_i = n ) \\
    0 & ( otherwise )
  \end{cases}
$$

多項分布の例

SASブログより、100足の靴下を取り出す場合($n=100$)、何色の靴下を何回抽出するかという分布例を以下に示す。靴下の色は(黒、茶、白)の三種類であり($K=3$)。それぞれ確率は$\lambda_{black}=0.5,\lambda_{brown}=0.2,\lambda_{white}=0.3$である。


4つの分布の関係性

最後に、以上4つの分布の関係性をまとめると、以下の図になる。カテゴリ数と試行回数によって、最も一般化されたのが多項分布である。このように関連づけて4つの分布を覚えておけば忘れない、、に違いない。

$$
\require{AMScd}
\begin{CD}
Bernoulli(K=2,n=1) @>{K>2}>> Categorical(K>2,n=1)\\
@V{n>1}VV {} @VV{n>1}V\\
Binomial(K=2,n>1)  @>>{K>2}> Multinomial(K>2,n>1)
\end{CD}
$$

$$
\diamondsuit K:カテゴリ数\\
\diamondsuit n:試行回数
$$


0 件のコメント:

コメントを投稿