GaP: A Factor Model for Discrete Data[Canny, SIGIR'04]のメモ
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.67.8075&rep=rep1&type=pdf
NMF(Non-negative Matrix Factorization)をGamma-Poissonでやる話.Gamma-Poissonの頭文字を取ってGaPと呼んでいる.他の文献*1によれば,GaPはDCA(Discrete Component Analysis)の一般化なのだとか.DCA知らんので,ピンときてない.
- 基本はF=ΛXとなるΛとXを求めること
- GaPでは,FはPoisson(ΛX)から生成されてる
- テキストの生成モデルをGamma-Poissonモデルで表現
- ドキュメントの単語頻度スコアXはGammaから生成
- 単語頻度FをPoissonから生成
- 学習はEM
- 観測はテキスト内の単語頻度F
- 未知はドキュメントの単語頻度スコアX(確率ではない)
- パラメータはGammaのパラメータと,トピックの単語頻度確率Λ
- 実験
本当は,Gamma-Poissonモデルについて詳しく書きたかったのだけど...