Rudi L. Cilibrasi, Paul M. B. Vitanyi著
検索エンジン「グーグル」を用いて、2つのものの関係性を表すという主旨の論文。
そして本論文はその圧縮関数C(x)をグーグルサーチエンジンを用いてさらにG(x)として近似する物である。圧縮=グーグルの接頭コードという発想である。
以下NGD。f(x)はxのグーグルサーチエンジンが返すxを含むページ数である。
さらにSVMと組み合わせるなどして、精度の向上にも努めている。
また、検証実験としてWordNetとの比較も行っており、erectrical termsについては100%の精度でwordnetと一致するなどといった結果もでている。
Wikipediaと同様に外部ソースを使った語句相関指標として使ってみたい。
0 件のコメント:
コメントを投稿