oi: 6月 2017

2017年6月17日土曜日

今更聞けないデータ分析による因果関係を示し方〜いかにして因果関係を示すか？〜

本書の概要

データ分析やデータサイエンス領域が重要視されて久しいが、「今あるデータから何が言えるのか」「あることを証明するためには、どのようなデータをどのようにとれば良いのか」を十分に理解して分析できる人材は多くない。大量データから単なる平均や分散などの基本的な統計量を算出することや、流行りの機械学習にとりあえず食わせる作業をデータ分析と言っている人も多い。

本書には、政策設計や制度設計における意思決定のためのエビデンスとして、データから因果関係を示すためのデータ分析手法およびその考え方が記されている。データ分析を実施したことがない方や、とりあえずExcelやAccessで分析したことはあるけれど、科学的に因果関係を立証したことはない方などには最高の入門書となるだろう。ただし、本書はあくまで因果関係の考え方に主眼を置いているため、基本的な統計の知識の説明や機械学習などの説明はほとんど含まれない。

また、本書の特徴としては、本編には数式は登場せず、数式アレルギーの方でもすらすら読めるようになっているので、安心されたい。発展的な内容や数式については、後半に良書が紹介されているので、より深い勉強をされたい方はそちらを参照すると良いであろう。

Kindle版も存在する。

因果関係を示す分析手法

本書で紹介されている因果関係を示す分析手法の概要と弱み・強みを備忘のために記しておく。

RCT（ランダム化比較試験）

因果関係をデータ分析によって明らかにする最良の方法
介入グループと比較グループを用意し、介入グループにのみ介入を行い、加入後の両グループの差を平均介入効果＝因果関係と見なす。
介入がなかった場合、介入グループと比較グループの平均結果は同じになる必要がある→自己選抜バイアスをなくすなど、無作為にグループを分ける必要あり

Fig. Randomized Controlled Trialの概要

< http://library.downstate.edu/EBM2/2200.htm　より抜粋>

RDデザイン（回帰不連続設計法）

自然実験手法（あたかも実験が起こったかのような状況を用いて因果関係を分析する）の一種
既存のデータの中に存在する境界線を利用し、ある境界前後において介入要素となりうるもののみが非連続に変化する場合（その他の要素は連続的に変換する必要がある）、その境界線付近の前後でRCTと見なすことができる。

Fig. Regression discontinuity designの概要

集積分析

自然実験手法（あたかも実験が起こったかのような状況を用いて因果関係を分析する）の一種
既存のデータの中に、何らかのインセンティブのみが階段状で変化する場合（その他の要素は連続的に変化する必要がある）、インセンティブが大きく変わる境界点におけるデータを集積することで、インセンティブに反応したかどうかの因果関係を説明できる。

パネル・データ分析

自然実験手法（あたかも実験が起こったかのような状況を用いて因果関係を分析する）の一種
複数グループに対して、介入開始前のデータに「平行トレンドの仮定」が成り立つ場合、介入前後の複数グループ間の差を比較することで介入効果を説明できる。

Fig. Analysis of Panel Data

<https://fisproject.jp/2016/05/difference-in-differences-using-r/ より抜粋>

分析手法の強みと弱みの整理

分析手法	強み	弱み
RCT （ランダム化比較試験）	・因果関係を科学的に立証できる →内的妥当性が非常に高い	・費用/労力/各機関の協力を要する
RDデザイン（回帰不連続設計法）	・境界線を境に、介入要素のみが非連続であるという仮定が成り立つのであれば、既存のデータを基にあたかもRCTが起こっているようにみなせる	・成り立つであろう根拠を示せるが、因果関係を科学的に立証できない・境界線付近のデータにしか、因果関係を主張できない（境界線付近の主体に対する介入効果しか説明できない）
集積分析	・境界線を境に、介入要素のみが階段状で変化し、他の要素は非連続で変化しないという仮定が成り立つのであれば、既存のデータを基にあたかもRCTが起こっているようにみなせる	・成り立つであろう根拠を示せるが、因果関係を科学的に立証できない・階段状に変化するインセンティブに反応する主体に対する因果関係しか主張できない
パネル・データ分析	・介入が起こった前後のデータが介入グループと比較グループについて入手でき、介入グループと比較グループについて平行トレンドの仮定が成り立つ場合、介入グループに属する全ての主体に対して介入効果が説明できる →外的妥当性は比較的高い	・成り立つであろう根拠を示せるが、因果関係を科学的に立証できない・「平行トレンドの仮定」は非常に難しい仮定であり、成り立たない状況も多い →他の手法に比べ、内的妥当性は劣る

Kindle版も存在する。

2017年6月4日日曜日

標準一様分布に従う独立した２つの確率変数の大きい方の期待値の求め方(3)

一様分布の定義は過去のポストに記載しているので参照されたい。今回のポストでは、おまけとして、任意の連続一様分布の期待値を求める。

（おまけ）任意の連続一様分布の場合

まず、$Y$が大きい場合を考える。求める期待値は$Y$の期待値となることから、以下で表せる。なお、各確率変数は、$a$から$b$の間の一様分布（確率 $\frac{1}{b-a}$）に従うため、確率密度関数は、2変数の同時確率となり、定数$\frac{1}{(b-a)^2}$ をとる。

$$
\begin{eqnarray}
& &\int_a^b\int_x^b \frac{y}{(b-a) ^2} dydx\\
&=&\int_a^b\frac{(b^2-x^2)}{ 2(b-a) ^2 }dx\\
&=&\left[ \frac{3b^2x - x^3 }{ 6(b-a) ^2 } \right]_a^b\\
&=&\frac{ (2b^3-3ab^2+a^3) }{ 6(b-a) ^2 }\\
&=&\frac{ (2b+a)(b-a)^2 }{ 6(b-a) ^2 }\\
&=&\frac{ (2b+a) }{ 6 }\\
\end{eqnarray}
$$

$X$と$Y$は対称であるため、$X$が大きい場合も同様に$\frac{ (2b+a) }{ 6 }$となる。よって、求める期待値は、$\frac{ (2b+a) }{ 3 }$であり、0から1の標準一様分布もこの値を満たす。

その他：美しい解法

本問題について、より美しく解いていたQAサイトを発見したので、紹介する。

Expected value of maximum of two random variables from uniform distribution
https://math.stackexchange.com/questions/197299/expected-value-of-maximum-of-two-random-variables-from-uniform-distribution

すべての非負の確率変数$X$の期待値は以下で表せることをうまく利用した例である。
$$
\begin{eqnarray}
& &E[X]\\
&=&\int_0^\infty yf_X(y) dy\\
&=&\int_0^\infty f_X(y) \int_0^y1dxdy\\
&=&\int_0^\infty\int_0^yf_X(y)dxdy\\
&=&\int_0^\infty\int_x^\infty f_X(y)dydx\\
&=&\int_0^\infty P(X \geq x) dx\\
&=&\int_0^\infty 1 - P(X \leq x) dx\\
\end{eqnarray}
$$

なお、式（10）〜式（11）は積分範囲の指定の順序を交換している。詳細は、以下を参照されたい。

Expected value of a non-negative random variable
https://math.stackexchange.com/questions/958472/expected-value-of-a-non-negative-random-variable

加えて、２つの確率変数の最大値が特定の値$x$よりも小さくなる確率は、以下で表現できる。
$$
\begin{eqnarray}
P(max(X,Y) \leq x) = P(X \leq x)P(Y \leq x)
\end{eqnarray}
$$

よって、以下のように求められる。

$$
\begin{eqnarray}
& & E[max(X,Y)]\\
&=& \int_0^\infty 1 - P(max(X,Y) \leq x) dx\\
&=& \int_0^\infty 1 - P(X \leq x)P(Y \leq x) dx\\
&=& \int_0^1 1 - x^2 dx\\
&=&\left[ \frac{3x - x^3 }{ 3 } \right]_0^1\\
&=& \frac{ 2 }{ 3 }
\end{eqnarray}
$$

標準一様分布に従う独立した２つの確率変数の大きい方の期待値の求め方(2)

標準一様分布の定義は過去のポストに記載しているので参照されたい。今回のポストでは、重積分を用いて期待値を表現することで、期待値を求める。

重積分によって導出する場合

標準一様分布に従う２つの確率変数をそれぞれ$X,Y$とする。

まず、$Y$が大きい場合を考える。求める期待値は$Y$の期待値となることから、以下で表せる。なお、0から1の間の区間１の一様分布であるため、確率密度関数は定数1をとなることに注意されたい。

外側の積分範囲は小さい方$X$のとりうる範囲を表し、内側の積分範囲はその$X$に対して、大きい$Y$をとる範囲を表している。

$$
\begin{eqnarray}
& &\int_0^1\int_x^1 y dydx\\
&=&\int_0^1\frac{(1-x^2)}{ 2 }dx\\
&=&\left[ \frac{3x - x^3 }{ 6 } \right]_0^1\\
&=&\frac{ 1 }{ 3 }
\end{eqnarray}
$$

$X$と$Y$は対称であるため、$X$が大きい場合も同様に$\frac{ 1 }{ 3 }$となる。

すなわち、求める期待値は、$\frac{ 2 }{ 3 }$である。
なお、当然、離散確率変数の極限から導出した場合と同じ値をとる。

次回は一般化して、任意の連続一様分布の場合を考える。

標準一様分布に従う独立した２つの確率変数の大きい方の期待値の求め方(1)

連続一様分布の定義

連続一様分布の確率密度関数は以下の通りである。

$$
\begin{eqnarray}
f ( x )
=
\begin{cases}
\frac{ 1 }{ b - a } & ( a \leq x \leq b ) \\
0 & ( x \lt a \ or \ b \gt x )
\end{cases}
\end{eqnarray}
$$
今回対象の標準一様分布は以下で定義される。
$$
\begin{eqnarray}
f ( x )
=
\begin{cases}
1 & (0 \leq x \leq 1 ) \\
0 & ( x \lt 0 \ or \ 1 \gt x )
\end{cases}
\end{eqnarray}
$$

いくつかの方法で期待値を求めてみる。

離散一様分布の極限から導出する場合

$[0,1]$の区間を$n$等分し、$0, \frac{ 1 }{ n },...,\frac{ k }{ n },...,\frac{ n }{ n }$ の$n+1$つの離散値を、それぞれ$\frac{ 1 }{ n+1 }$の確率でとる離散一様分布を考える。

この離散一様分布から、２つの確率変数$X,Y$をとる場合に、その大きい方の期待値は、以下の式で求められる。
$$
\small{2\sum_{k=0}^{n} \frac{ k }{ n }\cdot\frac{ 1 }{ 1+n }\cdot\frac{ 1+k }{ 1+n }-\sum_{k=0}^{n} \frac{ k }{ n }\cdot\frac{ 1 }{ 1+n }\cdot\frac{ 1 }{ 1+n }}
$$
簡単に解説すると、$X$が大きい方となり、その値が$\frac{ k }{ n }$をとる確率は、$\frac{ 1 }{ 1+n }\cdot\frac{ 1+k }{ 1+n }$である。この時、$Y$は、$\frac{ k }{ n }$以下の値をとる必要があることに注意されたい。次に、$Y$が大きい方となる場合も考慮し、$X=Y$となる重複する確率を除くと、求める期待値は、上記式で表現できる。

次に期待値の式を簡単にすると、以下の式（5）が得られる。
$$
\begin{eqnarray}
& &\small{2\sum_{k=0}^{n} \frac{ k }{ n }\cdot\frac{ 1 }{ 1+n }\cdot\frac{ 1+k }{ 1+n }-\sum_{k=0}^{n} \frac{ k }{ n }\cdot\frac{ 1 }{ 1+n }\cdot\frac{ 1 }{ 1+n }}\\
&=&\sum_{k=0}^{n} \frac{ 2k^2+k }{n(1+n)^2 }\\
&=&\sum_{k=1}^{n} \frac{ 2k^2+k }{n(1+n)^2 }\\
&=&\small{\frac{1}{n(1+n)^2}\cdot( 2\frac{n(n+1)(2n+1)}{6}+\frac{n(n+1)}{2})}\\
&=&\frac{4n+5}{6n+6}
\end{eqnarray}
$$

この$[0,1]$の区間を分割する変数である$n$を無限大の極限をとると、連続一様分布に従う独立した２つの確率変数の大きい方の期待値と等しいが得られる。
$$
\begin{eqnarray}
& & \lim_{ n \to \infty }\frac{4n+5}{6n+6}
&=& \lim_{ n \to \infty }\frac{4+\frac{5}{n}}{6+\frac{6}{n}}
&=&\frac{2}{3}
\end{eqnarray}
$$

次回は重積分を用いて、直接連続一様分布に従う独立した２つの確率変数の大きい方の期待値を考える。

登録: 投稿 (Atom)