; oi: 7月 2015

2015年7月18日土曜日

「良い」研究テーマについて考えてみた

研究テーマとは何か?

研究の目的は、新しい事実や知見・解釈といった知的コンテンツを生成することである。

研究者は全てについて研究できるわけではないので、何かしら研究するべき対象を絞る必要がある。そして、その絞られた条件や範囲の中で、新しい事実や知見の発見を目指し、日夜、調査・解析・実験または開発などを行っているのである。

私が関心があるのは、どのような観点で研究することを絞るべきなのであろうかという点である。今回はこれに関する現在の考えについて述べようと思う。

良い研究テーマとは?

どのような研究テーマを設定するべきなのであろうか。ここでは、研究テーマが満たすべき条件について考えてみる。整理すると以下の2パターンに大別できるのではないだろうか。
  1. 研究として成立するための必要条件
  2. 「良い」研究テーマとなる条件
以下にそれぞれについて説明する。

研究として成立するための必要条件

まず、研究として成立するための条件について考えると、以下の条件を満たす必要がある。
  • 新規性
    • ”新しい”の部分に対応する。当然のことながら、既存の事実や知見と差異がなければ、「新しい」事実・知見とはなり得ない。何を以て差異とするかは様々な意見があるようだが、差異を明示する必要があるという観点は変わらない。
  • 評価(証明)可能性
    • ”事実・知見”の部分に対応する。事実というからには再現性がある必要がある。特定条件下において再現できることを証明可能かどうか(評価精度についてはここでは言及しない)を考えておく必要がある。もし、原理的に評価(証明)不可能な場合、事実や知見は生まれないはずなので研究にはなり得ない。

「良い」研究テーマとなる条件

次に、「良い」研究テーマとなる条件については、さらに色々な観点が存在すると考えられる。今回は思いつく範囲で以下にまとめた。
  • 「良い」研究テーマ
    • 研究成果(得られた知的コンテンツ)が社会貢献につながる
      • 得られた知見の効果・情報量が大きい
      • 得られた知見の適用範囲が大きい
    • 知的コンテンツ生成コストが小さい
      • 実現可能性が高い
      • 研究に過剰なリソース(時間、金)を要しない
      • 研究者の知的関心が大きい(継続可能性大)


やっぱり新規性を見出す力が重要となる

いろいろと条件を挙げてみたが、やはり「新規性」を巧く説明するところが最も研究テーマ設定において肝となる部分であろう。これが完璧にできれば、後はひたすら作業するのみなので、研究がほぼ完了したといっても過言ではないのだろうか。

以下に、他のブログ等で記されている新規性の考え方について述べる。

引用1.
http://d.hatena.ne.jp/fukudakitchou/touch/20091126/1259243560

研究の新規性は、大きく四つに分けられる。
1.手法が新しい
工学系の研究では、最も一般的な新規性の出し方。
例えばN先生の過去の論文であれば、ゲーム理論とマルチエージェントシミュレーション、実験経済学のアプローチを統合的に用いて分析する、という手法自体が新しいということ。
2.対象が新しい
手法は全く新しくないが、それを適用する対象が新しいということ。つまり、既存の手法を新しい対象に適用している点で、新規性がある。
3.結果が新しい
手法も対象も一緒だが、結果が新しいということ。過去の結果を否定することで、新規性が出せる。
4.解釈が新しい
手法も対象も結果も一緒だが、その解釈が新しいということ。社会科学や人文科学の論文に多い。

引用2.

http://moroshigeki.hateblo.jp/entry/20101108/p2
学術論文における新規性とかオリジナリティとかについて、その辞書的な意味にとらわれて“これまでまったく存在していなかった説を他に依存せずに創造する”みたいに捉える学生がいるが、それはまったくの誤りである。学術論文においては、その存在意義や新規性などはすべて他人の口から語られなければならない。
ある領域についての先行研究を調査することによって、未解決の問題が見つかる場合がある。それは大概、複数の説が存在する(論文が批判しあっている)とか、効率が悪くてやろうと思ってもできないとか、誰かやってくれるといいよねーみたいに問題を投げっぱなし (^_^;; にしているとか、いずれにせよ先行研究自身が語ってくれている場合がほとんどである。先行研究が語っていない、問題だとすら思われていない部分を見つけ出して問題にしてしまう、という高等テクニックもあるが、これも間接的に先行研究がその問題の(現時点における)不在を語っていると言える。

引用3.

http://fujitalab.t.u-tokyo.ac.jp/announcement/message/

イントロがオリジナルか?
 仮にそのテーマがうまくいったとして、学会等で講演するときのことをイメージします。その時のイントロが、良く耳にする受け売りのような話から始まるようであれば、そもそもその研究はオリジナルな研究とは言えません。「イントロがオリジナル」=「誰にもない着眼」ですから、イントロをイメージすることは、自分の発想のオリジナリティーを判別する簡単な手段です。これは研究の途中で方向性を変える時もいっしょです。もっと良いイントロが話せると感じたときに研究テーマを修正することにしています。論文を書くときにイントロに困ったことはありません。はじめから出来上がっているのですから。

各論より総論
 総論は上流にあり各論は下流にあります。周囲を見ずに夢中で研究していると、気がついた時にはずいぶん下流に流されていたということは、上級研究者でもしばしば陥る失敗であります。学位論文の章立てをイメージした時、2章、3章と章が進むにつれ話が各論に入るようであればその研究はしりすぼみです。逆に、「前章の発見をさらに上位概念でとらえるなら…」と上流に向かって話が進むようであれば、研究は広がります。この上流に向かって泳ぐ努力は、回遊魚が一生泳ぎ続けるかのごとく研究者が研究者であるかぎり続けなければいけない努力です。なかなかたいへんですが、油断をせず、たえずこの努力を続けています。

なぜ研究テーマ設定は難しいか?

研究テーマがトップダウンで教授から与えられるような研究室や、課題が割と明確であり、時間と労力をかけ正確に作業できれば成果がでる類いの研究(これも重要)に従事する方は特に悩まないかもしれない。

しかしながら、一般的に、研究テーマ設定はとても難しい。

上記のそれぞれの要素について、基準や優先度が異なったり、不確定要素を含んだりする上、それぞれの要素を複合的に考えて判断する必要があるためであろう。

例を挙げると、生成コストの小さい小粒なテーマで研究成果を量産する、という方針の人もいるだろうし、インパクトのある本当に究明したい研究をいちかばちかで取り組む人もいるだろう。また、上述の引用の中にもあったように、何を以て新規性があるといえるかは研究者によって若干のズレがあるようである。「適用先が変われば新規性といえる」(いわゆる「○○やってみた」シリーズに近い)という方もいれば、「適用先の違い」だけでは研究ではなく、「適用先が異なることにより発生する問題を解決するための新しい工夫が含まれる」必要があると考える研究者も勿論多い。

このテーマ設定において、多くの関係者が納得できる形で議論を収束させ、指針・方向性を示せる人が、主に大学にて先生と呼ばれる人たちであろう。それほど、良い研究テーマ設定は困難であり、高度なスキルが必要となる。

どのように研究テーマの設定をするべきか?

では、最後にどのように研究テーマの設定を進めていけば良いのであろうか。

ポイントは上述の「新規性」をどう説明できるか、と「評価」をどうするかの2点であろう。研究テーマという俎上に上がるための条件であるからである。とはいえ、研究対象領域に関する知識がない場合、新しいかどうかの判断もつかないのは事実である。かといって研究対象領域の論文を読み漁ってから、新規性のありそうなところを研究し始めるというのもコスト大だろうし、いざデータを触ってみたら思ったのと違ったということはありそうである。

なので、「対象領域の理解」と「新規性のサーベイ」を並行して行いながら、新規性があり評価ができそうな領域に追加のリソースを注ぐということを繰り返す必要があるのだろう。いわゆる、段階的詳細化であり、データを触ると難しさがわかり、工夫が必要だと認識できるようになってくることがほとんどだろう。戦略のイメージとしては、新規性が出そうな領域を攻めるというよりは、明らかに既知の部分の探索を止めるという言い方のほうが近いのではないだろうか。

また、同時に懸念事項としては、対象領域ヒアリングや論文調査をしすぎることは、あまり良くない場合が多いということである。つまり、現場のことを聞き過ぎたり、情報を得すぎると、その世界が全てであると考えるようになる。目の前のその人を短期的に支援することは重要であるが、そこに執着しすぎてしまい、局所最適化解に落ち着く可能性が大きい。これは、自分自信の対象領域に潜む本質的な問題の理解が不足していることに起因すると考えられる。

今回、「良い」研究テーマ設定の方法論を考えたが、明確な解決策は見出せなかった。
引き続きこの点について最善策を考えていきたい。


2015年7月16日木曜日

歴史の教科書に関する諸問題と対策


歴史教科書の諸問題


私が受けた歴史教育の中で、教材について思い返すと、今更ながらではあるが色々問題があると感じるし、やりようもいくらでもあるように感じる。この記事では、まず問題点を列挙した後に私が考える対策を述べる。

問題1:歴史的事象の時系列的な対応付けがとりにくい

現在の歴史の教科書といえば山川出版社が有名であろう。
以下は、詳説日本史 改訂版(日B012)の「第3部『近世』」の目次の構成である。
 

以下のように、大まかに項目が政治的視点、経済的視点、文化的視点と分かれていることがわかるであろう。


もちろん異なる観点から分かれて記述されていること自体は、一つの流れを理解するのに理解を助けるのであるが、問題もある。それは、時代的な、時系列的な出来事の対応がとれなくなってしまっているということである。



歴史は様々な流れが並行で進み、時には複雑に絡み合って、形成されていくものであり、本来その様々な関係性を対応付けながら理解していく必要がある。

よって、この歴史教科書の構成では、政治、経済、文化の対応付けをとりながら、様々な観点から多角的に歴史を学んでいくことは、一つ一つの流れをしっかりと理解した上で頭の中でそれらの流れを整理できる、ごく一握りの優秀な読み手のみが可能な作業といえるであろう。

問題2:歴史の時間の流れの量感がわかりにくい

歴史の教科書は原則的にページをめくればめくるほど時が経っていくものである。なので、問題1で述べたような観点がかわることによる時間軸的な前後はあるにせよ、基本的に後ろのページが新しく、現在に近い時代の内容となる。つまり、ページの前後で事象の順序関係は、教科書というモノから、ビジュアルかつ感覚的に読み手に伝わるのである。


しかしながら、順序関係は伝わってもどれくらい前かどれくらい後かが非常に伝わりにくいのも事実である。138億年前のビッグバンと46億年前の地球誕生は同じページに記載されているにもかかわらず、第二次世界大戦の終戦までの数日間のイベントは日単位で記述され、数ページに渡っている。


現代の私たちにとって、とても重要な事柄であるから、細かい粒度で記載する必要があるはよくわかるが、細かい粒度で記載することにより、教科書のページとしては多くを占めてしまうため、これによりある程度の時間経過を感じてしまう。


重要なイベントには細かい粒度での記載が必要があるという話と時間間隔に合わせてイベントを記載する(教科書というものから巧くビジュアルかつ感覚的に時間感覚を伝える)という話は本来トレードオフであると考えられるが、これにより歴史上のイベントの時間感覚として読み手に誤解を与えている部分は少なくないであろう。

問題3:歴史上の事実・ファクトと歴史研究者の解釈・通説が混在している

歴史上の文献や史料から読み取れる事実(歴史上のイベント・ファクト)は、ただじっと歴史上に存在する。それらのファクトに対して、仮説を与えて整理・分類することにより、歴史の研究者はファクトにストーリーや新たな解釈を与える。例えば、藤原氏一族が代々摂政や関白になったというのはファクトであるが、これを「摂関政治という藤原氏の戦略があったのだ」と言い切るのは歴史研究者の解釈にすぎない。解釈の仕方としては、「たまたま偶然にしては摂政や関白または外戚になっていることが明らかに多い→何か恣意的な要素がある→政治的な権限を得るためか。」という流れであると推察されるが、これはあくまで仮説にすぎず、「摂関政治」というのは歴史上の事実とは一線を画すものである。

現在の教科書を見てみると、このような当たり前となった解釈や通説は目次レベルにまで記述されている。何らかの解釈やストーリー、あるいは因果関係を以て、歴史上の事実を説明された方が理解が深まる、理解しやすいというはまぎれもない事実であると想われる。しかし、事実と解釈を分けて記述しないと、データや事実を読み取ることと、解釈・説明することが別であるということを理解できない読み手が増えてしまうのではないだろうか。そして、情報があふれる現代社会において、自分の頭でこれらを考える力が、過去よりも増して求められているのではないだろうか。
 

対策:歴史の全体像を同一空間上に表現できないか?


上で述べたような問題点を解決するためには、もはや本というメディアには限界があると考える。本は基本的に「ページをめくる」という作業しか受け付けないのである。一つのストーリーをシーケンシャルに読むには、現在でも最適な媒体であると考えられるが、歴史のような複数の事実とそれの裏にある様々な解釈・ストーリーおよびそれぞれのストーリーの複雑な絡み合いと流れを多角的に理解することが求められるものを表現することは明らかに向いていない。

現代の情報技術を用いて、iPadなどで、空間、カテゴリを跨った時系列的な対応を同一平面上に表現して全貌をつかめるようにし、文献や史料からわかる事実・ファクトと歴史家の解釈を分けて、見える化することが歴史を表現する上で最も理解が進む方法であると考えられる。

具体的には事実をノードで時空間+カテゴリ上にマッピングし、それらの事実をグルーピングしたり、ノード間に因果関係のような関係性がある場合は矢印を追記したりすることで、解釈を与える。このような表現をiPadのような、直感的に操作できる端末上に、3次元的に表現するのである。

歴史から学ぶことはとてつもなく大きいと信じてやまない。しかしながら歴史を学ぶための基盤がたくさんの文献を読む、といったアナログな方法しかないこともまた事実である。以上のような仕組みで歴史を表現することで、大変に理解が進むのではないかと強く感じた次第である。
 

2015年7月7日火曜日

今更聞けないEMアルゴリズムの解説

今更ながらEMアルゴリズムとは何かについて、調査・勉強したのでまとめておく。Andrew氏のレクチャノートとパターン認識と機械学習下巻第9章を参考にした。

EMアルゴリズムの目的

観測変数$\boldsymbol{x}$と観測できない潜在変数$\boldsymbol{z}$を含む確率モデルの尤度関数$P( \boldsymbol{x} \mid \boldsymbol{\theta})$ を最大化するパラメータ$\boldsymbol{\theta}$ を見つけることである。

比較的複雑な観測変数の(周辺)分布$P( \boldsymbol{x})$を、より扱いやすい観測変数と潜在変数の同時分布$P( \boldsymbol{x}, \boldsymbol{z})$によって表すことができることがある(例えば混合正規分布などがそれに相当する)。このように、モデルを簡単に扱うために潜在変数$\boldsymbol{z}$を導入し、EMアルゴリズムの効果的な適用を図るケースがしばしばある。

EMアルゴリズムの解説

E-Stepの説明

E-Stepでは、$\boldsymbol{\theta}$固定の下、尤度関数の下界の分布を最大化する。以下で尤度関数を変形し、下界を求める手順を示す。

$$
\begin{eqnarray}
\displaystyle \sum_{ i = 1 }^{ N } \ln P( \boldsymbol{x}_i \mid \boldsymbol{\theta}) &=& \displaystyle \sum_{ i = 1 }^{ N } \ln \displaystyle \sum_{\boldsymbol{z}_i} P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})\\
&=& \displaystyle \sum_{ i = 1 }^{ N } \ln \displaystyle \sum_{\boldsymbol{z}_i} Q(\boldsymbol{z}_i)\frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)}\\
&\geq&  \displaystyle \sum_{ i = 1 }^{ N }\displaystyle \sum_{\boldsymbol{z}_i} Q(\boldsymbol{z}_i) \ln \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)}
\end{eqnarray}
$$

(1)式から(2)式への変形は、$\boldsymbol{z}_i$の任意の確率分布$Q(\boldsymbol{z}_i) $でかけて割っただけである。
(2)式から(3)式への変形は、Jensen's Inequalityを利用した。以下の(4)式を参照されたい。$\ln$が凹関数なので、期待値を関数に入れた値のほうが、関数に入れた値の期待値より大きい。今回の場合、$\frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)}$を値と捉え、$Q(\boldsymbol{z}_i) $によって期待値を算出することを考える。

$$
\begin{eqnarray}
 \ln E_{\boldsymbol{z}_i 〜 Q(\boldsymbol{z}_i) } \left[ \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)}\right]
&\geq& E_{\boldsymbol{z}_i 〜 Q(\boldsymbol{z}_i) } \ln \left[ \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)}\right]
\end{eqnarray}
$$

(2)式から(3)式の変形は、$Q(\boldsymbol{z}_i)$がどのような確率分布であっても成立する。
尤度関数最大化の目的を考えると、$\boldsymbol{\theta}$固定の下、下界(3)式を最大化、つまり(3)の等号の成立を図るのが自然であろう。
Jensen's Inequalityの等号の成立条件は、凸関数が線形関数の場合か、狭義凸関数(線形ではない)の場合は、凸関数の中身が1点分布となる場合である。つまり以下を満たす。

$$
\begin{eqnarray}
\displaystyle \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)} &=& const
\end{eqnarray}
$$

また、$\sum_{\boldsymbol{z}_i }Q(\boldsymbol{z}_i) =1$より、以下が成り立つ。

$$
\begin{eqnarray}
Q(\boldsymbol{z}_i)  &=& \displaystyle \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{\sum_{\boldsymbol{z}_i }P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}\\
&=&  \displaystyle \frac{P( \boldsymbol{z}_i \mid \boldsymbol{x}_i, \boldsymbol{\theta})P( \boldsymbol{x}_i \mid \boldsymbol{\theta})}{P( \boldsymbol{x}_i \mid \boldsymbol{\theta})}\\
&=& P( \boldsymbol{z}_i \mid \boldsymbol{x}_i, \boldsymbol{\theta})
\end{eqnarray}
$$

すべての$i$について(8)式を実施することが、E-Stepにて行うことである。

(補足)E-Stepのその他の説明

(3)式の下界の各々$i$について、以下のように式変形する。
$$
\begin{eqnarray}
\ln P( \boldsymbol{x}_i \mid \boldsymbol{\theta})
&\geq& \displaystyle \sum_{\boldsymbol{z}_i} Q(\boldsymbol{z}_i) \ln \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)}\\
&=& \displaystyle \sum_{\boldsymbol{z}_i} Q(\boldsymbol{z}_i) \ln \frac{P( \boldsymbol{z}_i \mid \boldsymbol{x}_i, \boldsymbol{\theta})P( \boldsymbol{x}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)}\\
&=&  \ln P( \boldsymbol{x}_i \mid \boldsymbol{\theta}) + \displaystyle \sum_{\boldsymbol{z}_i} Q(\boldsymbol{z}_i) \ln \frac{P( \boldsymbol{z}_i \mid \boldsymbol{x}_i, \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)}\\
&=& \displaystyle \ln P( \boldsymbol{x}_i \mid \boldsymbol{\theta}) - KL(Q(\boldsymbol{z}_i)||P( \boldsymbol{z}_i \mid \boldsymbol{x}_i, \boldsymbol{\theta}))
\end{eqnarray}
$$

(10)式から(11)式への変形は、$\boldsymbol{z}_i $に依存しない$P( \boldsymbol{x}_i \mid \boldsymbol{\theta})$を前に出し、$Q(\boldsymbol{z}_i)$の$\boldsymbol{z}_i$に関する積分が1になることによる。

さて、下界である右辺の最大化を考えた場合、(12)式第2項$Kullback–Leibler$ divergenceの最小化が必要となる。$KL$ divergence $\geq 0$より、  $KL(Q(\boldsymbol{z}_i)||P( \boldsymbol{z}_i \mid \boldsymbol{x}_i, \boldsymbol{\theta})) = 0$となる$Q(\boldsymbol{z}_i)$を求めることと同義となる。よって、$Q(\boldsymbol{z}_i) = P( \boldsymbol{z}_i \mid \boldsymbol{x}_i, \boldsymbol{\theta})$を求めることとなり、これは(8)式と一致する。

また、$\boldsymbol{z}_i$が連続変数の場合のE-Stepについては、以下に変分法を用いた説明を加えたので、参照していただきたい。
今更聞けないEMアルゴリズムの解説〜潜在変数が連続変数の場合のEステップの説明〜

M-Stepの説明

今度は、$Q(\boldsymbol{z}_i)$を固定し、$\boldsymbol{\theta}$を動かし、尤度関数の下界分布の最大化を図る。

$$
\begin{eqnarray}
\hat{\theta}&=&\mathop{\arg\,\max}\limits_\boldsymbol{\theta}
\displaystyle \sum_{\boldsymbol{z}_i} Q(\boldsymbol{z}_i) \ln \frac{P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})}{Q(\boldsymbol{z}_i)}\\
&=& \mathop{\arg\,\max}\limits_\boldsymbol{\theta}
\displaystyle \sum_{\boldsymbol{z}_i} Q(\boldsymbol{z}_i) \ln P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})\\
&=& \mathop{\arg\,\max}\limits_\boldsymbol{\theta}
\displaystyle \sum_{\boldsymbol{z}_i} P( \boldsymbol{z}_i \mid \boldsymbol{x}_i, \boldsymbol{\theta}_{old}) \ln P( \boldsymbol{x}_i, \boldsymbol{z}_i \mid \boldsymbol{\theta})
\end{eqnarray}
$$

(13)式から(14)式の変形は$\boldsymbol{\theta}$によって影響のない部分を排除した。
(15)式はE-Stepで求めた、$Q(\boldsymbol{z}_i) = P( \boldsymbol{z}_i \mid \boldsymbol{x}_i, \boldsymbol{\theta}_{old}) $を代入した。

このように、E-Stepにて潜在変数の事後確率を求め、その事後確率によってM-Stepにて期待値計算を行い、目的のパラメータを更新する。このプロセスを収束するまで繰り返す。イメージを下図に示す。

パターン認識と機械学習 下 (ベイズ理論による統計的予測)  第9章 図9.14


以上、EMアルゴリズムの全貌である。複雑な分布を簡単な分布の構成として扱うことで、簡単に尤度関数の最適化ができるようになった。EMアルゴリズム適用時のポイントは、何を潜在変数の分布として、何を観測変数として扱うのかというモデル化であろう。卑近な混合正規分布への適用例をしっかりと学び、その類推で応用していくのが簡単に思える。

EMアルゴリズムを拡張した変分推論については、また今度。

参考文献
パターン認識と機械学習 下 (ベイズ理論による統計的予測)  第9章, C.M. ビショップ (著), 元田 浩, 栗田 多喜夫, 樋口 知之, 松本 裕治, 村田 昇 (監訳)

2015年7月1日水曜日

ベイズ推定における共役事前分布の重要性について

ベイズ推定における事後確率計算量


$$P(x^* \mid \boldsymbol{x}) = \displaystyle \int P(x^* \mid \boldsymbol{\lambda})  P(\boldsymbol{\lambda} \mid \boldsymbol{x}) d \boldsymbol{\lambda}$$

ベイズ推定の際は、予測をする場合に事後確率によって重み付けをとるため、全てのパラメーターに対する事後確率を覚えておくか、解析的に計算できるようにしておく必要がある。


現実的には、全てのパラメータの事後確率を覚えておくことは不可能なので、解析的に計算しておくか、近似的に計算することになる。

そこで、共役事前分布の登場である。

共役事前分布を用いれば, 事後分布が閉じた形で計算できるため、計算が簡単になる。具体的には、事後分布を求める際に、尤度と事前分布の積が、ある確率分布*定数$\kappa$だとわかる場合、evidence(分母) と定数$\kappa$が同じにならねばならない。なぜなら、左辺の事後確率分布はあらゆる点において0以上1以下で全区間積分すると1になる正しい確率分布であるので、右辺も同様に正しい確率分布荷なる必要がある。ある確率分布(パラメータ未定)が出現しているため、その前の定数はevidence(分母)とキャンセルされる必要があるのである。

$$
\begin{eqnarray}
P(\boldsymbol{\lambda} \mid \boldsymbol{x}) &=& \frac{ \prod_{ i = 1 }^N P(x_i \mid \boldsymbol{\lambda})P(\boldsymbol{\lambda})}{ P(\boldsymbol{x})} \\
&=& \frac{ \prod_{ i = 1 }^N Cat_{x_i}( \boldsymbol{\lambda})Dir_{\boldsymbol{\lambda}}(\boldsymbol{\alpha})}{ P(\boldsymbol{x})} \\
&=& \frac{ \kappa (\boldsymbol{x}, \boldsymbol{\alpha}) Dir_{\boldsymbol{\lambda}}(\boldsymbol{\tilde{\alpha}})}{ P(\boldsymbol{x})}
\end{eqnarray}
$$

上の例では、多項分布($Cat(x)$についてはココ(基本的な確率分布のまとめ)を参照。)とその共役事前分布であるディリクレ分布の掛け合わせによる事後分布の導出を示している。このとき$\kappa$と$P(\boldsymbol{x})$はキャンセルする必要があり、結果的にディリクレ分布のパラメータ$\boldsymbol{\tilde{\alpha}}$が決まれば事後分布がわかるわけである。

その他、パラメーターを介した周辺化の積分計算(予測*事後確率)を行う際に、確率分布が出現し、積分の中の計算が1になる。よって、定数部分の演算だけで観測点からの予測が可能となる点で、共役事前分布は強力である。

$$
\begin{eqnarray}

P(x^* \mid \boldsymbol{x}) &=& \displaystyle \int P(x^* \mid \boldsymbol{\lambda})  P(\boldsymbol{\lambda} \mid \boldsymbol{x}) d \boldsymbol{\lambda}\\
&=& \int Cat_{x^*}( \boldsymbol{\lambda})Dir_{\boldsymbol{\lambda}}(\boldsymbol{\tilde{\alpha}}) d \boldsymbol{\lambda}\\
&=& \int \kappa (x^*,  \boldsymbol{\tilde{\alpha}}) Dir_{\boldsymbol{\lambda}}(\boldsymbol{\breve{\alpha}}) d \boldsymbol{\lambda}\\
&=& \kappa (x^*,  \boldsymbol{\tilde{\alpha}})
\end{eqnarray}
$$

上の例では、各パラメータ$ \boldsymbol{\lambda}$の下の$x^*$の確率分布が多項分布、事後確率分布がディリクレ分布の場合の予測時の導出を示している。定数部分$\kappa$だけ積分の前にもっていくことができ、ディリクレ分布は積分すると1になるので、結果、定数部分$\kappa$が残るわけである。

以上、ベイズ推定における共役事前分布の重要性について述べた。
(代表的な共役事前分布の例はこちら

しかし、MCMCと呼ばれるサンプリング技法が成熟した経緯もあり、共役でない自由な事前分布を用いたとしても近似的に事後分布を求めることで、ベイズ推定可能となっている。詳しくは後日投稿する。

服をリサイクル!ティッシュカバーの作り方

買ったけどあまり着ていない、でもサイズが合わない…
色や素材は可愛いけど、服としてのデザインは…
なんて服、タンスに眠っていませんか?

リサイクルやフリマに出すのもいいですが、なんか手放すのももったいないな…という場合には、簡単にリメイクして手元に置いておく方法をオススメします!

今回ご紹介するのはこちら。



ティッシュケースです。
実はこれ、昔WEGOで買った白パーカーのフードをリメイクして作っています!
作り方はとても簡単。
用意するものは、着なくなったパーカー、適当な布(パーカーの余った部分でもOK)、大きめのボタン。

パーカーのフードの顔が出る部分が、ティッシュを出す部分に相当するので、まずはティッシュの箱を実際に入れてみてサイズ感を確認します。
あまりに大きすぎるものは適さないかもしれません。
大きさを確認したら、パーカーのフード部分(赤い点線部分)を切り取ります。


そして切断した部分を、用意した布と縫い合わせて袋状にします。
縫い合わせた布の両サイドを、ティッシュの箱のサイズにあわせてキュッと絞り、縫い合わせます。
縫い目に大きめのボタンを付ければ出来上がり。

上から見るとこんな感じで、赤く囲んだ部分がフードになっています。

フードなので少し丸いシルエットになりますが、その分反対側の付け足した布を箱にフィットさせることでバランスを整えます。
フードに付いていた紐がデザインのアクセントになっているうえに、この紐のおかげで、ティッシュ箱の差し替えがとても便利になるのです!


このように、紐を解くと口が大きく広がるので、簡単に出し入れができます。

ティッシュを出すとこんな感じ。

元々買う服は、自分の好みの色やデザインのものが多いので、上手く小物に変身させると、自分の好みの部屋にマッチしたものに仕上げることができます。
是非お試しください。