本書の概要
データ分析やデータサイエンス領域が重要視されて久しいが、「今あるデータから何が言えるのか」「あることを証明するためには、どのようなデータをどのようにとれば良いのか」を十分に理解して分析できる人材は多くない。大量データから単なる平均や分散などの基本的な統計量を算出することや、流行りの機械学習にとりあえず食わせる作業をデータ分析と言っている人も多い。本書には、政策設計や制度設計における意思決定のためのエビデンスとして、データから因果関係を示すためのデータ分析手法およびその考え方が記されている。データ分析を実施したことがない方や、とりあえずExcelやAccessで分析したことはあるけれど、科学的に因果関係を立証したことはない方などには最高の入門書となるだろう。ただし、本書はあくまで因果関係の考え方に主眼を置いているため、基本的な統計の知識の説明や機械学習などの説明はほとんど含まれない。
また、本書の特徴としては、本編には数式は登場せず、数式アレルギーの方でもすらすら読めるようになっているので、安心されたい。発展的な内容や数式については、後半に良書が紹介されているので、より深い勉強をされたい方はそちらを参照すると良いであろう。
Kindle版も存在する。
因果関係を示す分析手法
本書で紹介されている因果関係を示す分析手法の概要と弱み・強みを備忘のために記しておく。- RCT(ランダム化比較試験)
- 因果関係をデータ分析によって明らかにする最良の方法
- 介入グループと比較グループを用意し、介入グループにのみ介入を行い、加入後の両グループの差を平均介入効果=因果関係と見なす。
- 介入がなかった場合、介入グループと比較グループの平均結果は同じになる必要がある→自己選抜バイアスをなくすなど、無作為にグループを分ける必要あり
Fig. Randomized Controlled Trialの概要
- RDデザイン(回帰不連続設計法)
- 自然実験手法(あたかも実験が起こったかのような状況を用いて因果関係を分析する)の一種
- 既存のデータの中に存在する境界線を利用し、ある境界前後において介入要素となりうるもののみが非連続に変化する場合(その他の要素は連続的に変換する必要がある)、その境界線付近の前後でRCTと見なすことができる。
Fig. Regression discontinuity designの概要
- 集積分析
- 自然実験手法(あたかも実験が起こったかのような状況を用いて因果関係を分析する)の一種
- 既存のデータの中に、何らかのインセンティブのみが階段状で変化する場合(その他の要素は連続的に変化する必要がある)、インセンティブが大きく変わる境界点におけるデータを集積することで、インセンティブに反応したかどうかの因果関係を説明できる。
- パネル・データ分析
- 自然実験手法(あたかも実験が起こったかのような状況を用いて因果関係を分析する)の一種
- 複数グループに対して、介入開始前のデータに「平行トレンドの仮定」が成り立つ場合、介入前後の複数グループ間の差を比較することで介入効果を説明できる。
Fig. Analysis of Panel Data
分析手法の強みと弱みの整理
分析手法 | 強み | 弱み |
RCT (ランダム化比較試験) | ・因果関係を科学的に立証できる →内的妥当性が非常に高い | ・費用/労力/各機関の協力を要する |
RDデザイン (回帰不連続設計法) | ・境界線を境に、介入要素のみが非連続であるという仮定が成り立つのであれば、既存のデータを基にあたかもRCTが起こっているようにみなせる | ・成り立つであろう根拠を示せるが、因果関係を科学的に立証できない ・境界線付近のデータにしか、因果関係を主張できない(境界線付近の主体に対する介入効果しか説明できない) |
集積分析 | ・境界線を境に、介入要素のみが階段状で変化し、他の要素は非連続で変化しないという仮定が成り立つのであれば、既存のデータを基にあたかもRCTが起こっているようにみなせる | ・成り立つであろう根拠を示せるが、因果関係を科学的に立証できない ・階段状に変化するインセンティブに反応する主体に対する因果関係しか主張できない |
パネル・データ分析 | ・介入が起こった前後のデータが介入グループと比較グループについて入手でき、介入グループと比較グループについて平行トレンドの仮定が成り立つ場合、介入グループに属する全ての主体に対して介入効果が説明できる →外的妥当性は比較的高い | ・成り立つであろう根拠を示せるが、因果関係を科学的に立証できない ・「平行トレンドの仮定」は非常に難しい仮定であり、成り立たない状況も多い →他の手法に比べ、内的妥当性は劣る |