Zhiyuan Liu, Wenyi Huang, Yabin Zheng, Maosong Sun 著
目的は文書からキーフレーズを抽出すること。
共起関係からできあがった語の共起ネットワークを解析することで重要な語を抽出する。
解析アルゴリズムとしては誰もがお世話になっているグーグルのPageRankを応用する。(Topical PageRank)
どのように応用するか?
この論文は「語はそのトピックに依存する」というのがポリシー。
つまりより良いキーフレーズはその文書の主要なトピックと関係が強くあるべきであり、またより良いキーフレーズはその文書の全てのトピックを網羅すべきであるといった具合だ。
そこでTopical PageRankアルゴリズムを提案する。
基本ステップは以下の通りである。
1.トピックを判断する分類器の作成
2.トピックを考慮してPageRankアルゴリズムを改善
ステップ1のためにはLatent Dirichlet Allocationを利用する。
これにより、あるトピックzが与えられたときに語wが起こる確率P(w|z)、及びP(z|w)を求める。
トピックの分布と語の分布を分けて考えて学習させるっていう感じ。詳しくは論文を参照されたい。
ステップ2ではPageRankアルゴリズムをトピックを考慮したものに変形する。
まずこれが本家のPageRank。
R(wi)が大きいほどグーグル検索上位になるわけだ。
e(wi,wj)はwi→wjのエッジの重み。O(wj)はwjを起点として他のノードに向うエッジのeの和(Σe)。
つまりΣの中身は(あるノードwjの重要度:R(wj))×(wjから見たwiの重要さの割合:e/Σe)ということである。Σ全体でノードwiの重要度を示しているというわけ。
また|V|は対象としている語の数、つまりΣw。その逆数1/|V|はランダムでそのノードに来る確率だと考えて良い。またλは普通にリンクをたどって、wiにくる場合とランダムでくる場合の比を表す。
本家グーグルではλ=0.85だそうだ。
このマルコフ連鎖の定常分布を求めることが、PageRankにおける重要度を求めることであった。
さて、ではTPRの場合はどうか。
なんのことはなく、ランダムでwiに遷移する確率がPzとなっただけである。
このPzはトピックに依存した確率であり、Σ [w] Pz(wi)=1である。
本論文では、PzをP(w|z)の場合、P(z|w)の場合、またP(w|z)*P(z|w)の場合などを試している。
さて、TPRを用いて評価実験について。
評価項目としては、再現率、適合率、F-measureに加え、Bpref、MRRという指標も評価している。
この二つは選択のみならず、その順序を考慮するときに用いる指標だそう。
比較対象はTF-IDF、PageRank,LDAで、結果はいわずもがなTPRが全ての指標で一番。
感想としてはトピック付のコーパスを利用して、それに特化したアルゴリズムである時点で、他の手法より良いのは明白であると思った。あとP(w|z)がOになってしまうという危険がはらむのではないか。そうすると共起ネットワークグラフを強連結にすることが保証されなくなりそうな気がする。。
それはさておき、PageRankのランダム遷移部分をトピックに注意して変化させるというアイデアは面白い。というかリンク解析の手法がグラフ理論や確率過程の問題、または機械学習とうまく絡んでいて美しいなあ。
0 件のコメント:
コメントを投稿