GaP: A Factor Model for Discrete Data[Canny, SIGIR'04]のメモ

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.67.8075&rep=rep1&type=pdf
NMF(Non-negative Matrix Factorization)をGamma-Poissonでやる話.Gamma-Poissonの頭文字を取ってGaPと呼んでいる.他の文献*1によれば,GaPはDCA(Discrete Component Analysis)の一般化なのだとか.DCA知らんので,ピンときてない.

  • 基本はF=ΛXとなるΛとXを求めること
    • GaPでは,FはPoisson(ΛX)から生成されてる
  • テキストの生成モデルをGamma-Poissonモデルで表現
    • ドキュメントの単語頻度スコアXはGammaから生成
    • 単語頻度FをPoissonから生成
  • 学習はEM
    • 観測はテキスト内の単語頻度F
    • 未知はドキュメントの単語頻度スコアX(確率ではない)
    • パラメータはGammaのパラメータと,トピックの単語頻度確率Λ
  • 実験

本当は,Gamma-Poissonモデルについて詳しく書きたかったのだけど...