GaP: A Factor Model for Discrete Data[Canny, SIGIR'04]のメモ

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.67.8075&rep=rep1&type=pdf
NMF(Non-negative Matrix Factorization)をGamma-Poissonでやる話．Gamma-Poissonの頭文字を取ってGaPと呼んでいる．他の文献*1によれば，~~GaPはDCA(Discrete Component Analysis)の一般化なのだとか．DCA知らんので，ピンときてない．~~

基本はF=ΛXとなるΛとXを求めること
- GaPでは，FはPoisson(ΛX)から生成されてる
テキストの生成モデルをGamma-Poissonモデルで表現
- ドキュメントの単語頻度スコアXはGammaから生成
- 単語頻度FをPoissonから生成
学習はEM
- 観測はテキスト内の単語頻度F
- 未知はドキュメントの単語頻度スコアX(確率ではない)
- パラメータはGammaのパラメータと，トピックの単語頻度確率Λ
実験
- Perplexityによる言語モデルとしての評価
  - LDAと比べて良い性能
- 検索性能
  - KLダイバージェンスによるクエリ類似度の計算と比べて，15%程Precision上昇

本当は，Gamma-Poissonモデルについて詳しく書きたかったのだけど...

*1:http://arxiv.org/pdf/math.ST/0604410.pdf