TrueLabel + Confusions: A Spectrum of Probabilistic Models in Analyzing Multiple Ratings[Liu+, ICML'12]のメモ
http://icml.cc/2012/papers/123.pdf
クラウドソーシング+機械学習の論文.1979年のDawid&Skeneの研究をspectrum of probabilistic modelsに一般化している(spectrumのイメージが出来てない...).一般化と言われてもいまいちピンと来ないけど,Dawid&Skeneと同じことを出来るよりシンプルなモデルと,ベイジアンにしたモデルの2つを提案しているのが実際のところ.鹿島先生のチュートリアル*1によれば,このDawidらの研究はこの話題における先駆的な研究なのだそう.
- モチベーション
- 提案法: 2つのモデル
- 学習はEM
- 観測はワーカーによるタスクへの評価(rating)
- 未知は真のラベル
- パラメータはConfusion行列,真のラベルの分布
- 実験
- 人工データを使った評価(ラベル数K=3)
- 真のラベルをどれだけ推定できるか
- HybridConfusionが最も良い性能.
- DawidSkeneとSingleConfusionは,多数決による方法に負ける
- パラメータ推定の結果
- 基本的にHybridConfusionが優勢
- 真のラベルをどれだけ推定できるか
- Real-Worldデータを使った結果
- (query, URL)というタスクに対して,ワーカーが「Bad,Fair,Good,Excellent,Perfect」のいずれかの評価をしたデータ.
- 難しいタスクで構成されているらしい
- 48タスクに対して148ワーカーから6008個の評価を得た
- 2:1の割合で訓練セットとテストセットに分けた
- テストデータのみに基づいて真の評価を予測
- HybridConfusionが最もよい(精度: 約6割)けど,多数決による方法とほぼ同じ
- 訓練セットでパラメータを学習した後,真の評価を予測
- HybridConfusionが最も良い(精度: 約6割)
- (query, URL)というタスクに対して,ワーカーが「Bad,Fair,Good,Excellent,Perfect」のいずれかの評価をしたデータ.
- 人工データを使った評価(ラベル数K=3)
- 思ったこと