「コンピューター革命 最強×最速の頭脳誕生」を見て思ったこと

NHKスペシャル
スパコンの京とビッグデータで何が出来るのかということを見せてくれた番組.録画して見ました.NHKはまじでこういう番組作るの上手いと思うし,NHKしかやってくれないから,NHK大好きなんだよなー.
# でもNHK見てるとか言うと,地味だとかなんだとか言われるし,心外だよね全くもう.

それで本題なんですけど,これ見てて重要だなと思うのは研究の将来像だなと思ったわけです.「2020年にはこうなってる」とかアニメ形式でシミュレーションしていて,実際2020年であれは厳しい気がしたけれど,ああいう画が自分の中で描けると,研究を知らない人に伝えるときに「すごそう」って思ってもらえるわけだし,自分自身も「こんな楽しいことしてるんだ」って思える.機械学習に足を突っ込んで研究している身としてはどうかと思うけど,あの番組見て「僕のやってる研究ってこんなに面白いことの一端だったんだ」って思いました.単純バカな感想ですみません.

個人個人の研究は小さいことをコツコツとやっていくものだから,ふとすると研究の意味とかよくわからなくなっちゃうけれど,どういうことを目指して今の研究があるのか,ちゃんと考え続けて,ちゃんと話し続けていきたい.

Noisy-ORモデルのお勉強

すごい人「これってNoisy-ORモデルと似てるよね」
僕「...ソウ..デスネ」
ということになったので,ちょっとお勉強しました.ネットでWikipediaあたりがサクっと引っかかってくれるものかと思ったのですが,どうも引っかからないので,枕にしていたベイジアンネットの本を広げました.

Probabilistic Graphical Models: Principles and Techniques (Adaptive Computation and Machine Learning series)

Probabilistic Graphical Models: Principles and Techniques (Adaptive Computation and Machine Learning series)


学生についての教員の推薦状の質L(良いを1,悪いを0)が,授業中の質問の質Q(良いを1,悪いを0)とその人の論文の質F(良いを1,悪いを0)に依存して決まるとする.ORモデルは,右の図のグラフのように書けて,二つの入力に対して論理和(OR)を取った値が出力となる.つまり,質問の質か論文の質のどちらかが良ければ,推薦状の質は必ず良いということを表す.



でも,もしかしたら,教員は学生がどんな質問をしたかなんて覚えてないかもしれないし,論文なんて読んでる時間はないかもしれない.いや,そもそも教員は推薦状を書く才能がないかもしれない.こういう風に現実はかなりNoisyである.
左の図は,上のORモデルをNoisy-ORモデルとして書きなおしたものである.丸が2つ増えて階層的になっているのはNoisyであることを表現している(例えば,学生が良い質問をしていたけど,教員が覚えてなかった確率はP(Q'=0|Q=1)と書ける).
では,Noisy-ORモデルで推薦状の質が良い(もしくは悪い)確率はどのように計算するのか.今, \lambda_F = P(F'=1|F=1) \lambda_Q = P(Q'=1|Q=1)としよう.ついでに,教員の推薦状を書く才能を \lambda_0で表そう(小さいほど良い).そうすると,推薦状の質が悪い確率は, P(L=0|F,Q) = (1-\lambda_0)(1-\lambda_F)(1-\lambda_Q)となる.直感的には,ORモデルは全ての入力が0のとき出力が0になるので,Noisy-ORモデルでは全ての入力が失敗の確率の積として表せる.
また,推薦状の質が良い確率は,全ての入力が0であるわけがないという確率なので, P(L=1|F,Q) = 1 - (1-\lambda_0)(1-\lambda_F)(1-\lambda_Q)となる.

以上がNoisy-ORモデルの説明.ここでは入力が2つの場合を考えましたが,K個の場合に拡張するのも容易です.

とまあ,こんな感じ.

CICP申請書提出とドーナツと餃子

今日はCICP申請書締切日.締切時間の15時ギリギリまで粘って作業する.リーダーのみが提出可能ということで,授業中のM1のリーダーにメールで送って出してもらう.リーダーしか出せないというのに,授業がいっぱいある時間帯に提出時間を設けるのはどうかと思うわけだけど,そんな事言っていたらお金はもらえませんよねー.
今回の申請書の出来は,昨年自分がリーダーでやったときに比べてまともになっている気がする.去年の申請書を見なおしてみたけど,下手くそながらやる気は感じる文章になっていると感じた.今年のはプロジェクトの意義をちゃんと説明できているけど,内容的に落ち着いているというかなんというか... 審査員がどういうのを好むか分からないけど,面白さとか斬新さとかそういうのが好みなら通らなそう.

提出し終わって甘いモノが食べたいということでドーナツを買いに行く.買い出しに自分の車で行かないのは,昨年の歓迎会BBQ以来2度目な気がする.途中,餃子パーティもやることが決まったので餃子も買っていく.他人の車に乗せてもらうのは楽しくていいなー.

その後,ドーナツと餃子をみんなで食べて,方言がどうだとか,最近のゲームがどうだとか,そんな話をしながら楽しい時間を過ごした.僕自身,こういうイベントを企画するのがとても苦手なので,誰かがこういうのやりたいって言ってくれるのはとても有難いし,いい意味で周りを巻き込んで楽しむっていうのはすごいことだなと思う.

Modeling Diffusion in Social Networks Using Network Properties[Luu, ICWSM'12]のざっくりメモ

今日の夜、こんな論文があると教えてもらって見た論文。概要と1節と実験と結論しか読んでいない段階なので、詳細はまた後日。
1960年代のBass modelというのをベースに、ネットワークの次数分布を取り入れたモデルを提案しているっぽい。Bass modelはかなりシンプルで、影響を受ける人数は集団内で既に影響を受けていう人の数と、外部からの影響で決まるというもの。ソーシャルネットワークの次数分布がベキ則分布であるとはよく言われるところであって、今回のモデルではベキ則分布と形が似ている指数分布の2つを次数分布として採用している。あと、ネットワーク構造を詳細に捉えて情報の広がりをモデル化する事をmicro-levelと呼び、逆にネットワーク構造は見ずに、集団として情報がどういう影響で広がるかをモデル化するのをmacro-levelと呼んでいるようである。なので、Bass modelや今回の提案モデルは、macro-levelということになる。
実験では、時間ごとの影響を受けてる人の割合の回帰モデルのフィッティングの良さを、Bass modelと提案モデルで比較していて、いろんなパラメータ設定の下で、提案モデルの方が良いと示している。実データは、bookreadという本の共有推薦サイトのデータを使っていて、そのデータでも提案モデルのフィッティングが良いと言っている。

まだ良くわかってない点

  • 次数分布を入れるというのは、想像するに、集団内部の影響の受け方がベキ則や指数分布から確率的に決まるという意味だろうけれど、中身を読んでないからこれで合ってるか分からない
  • 上に関連して、時数分布が段階的に変わるモデルも提案してるようだけど、変わるとしても徐々にだろうしその辺はどうするのか。

ちなみに、今回はiPadで論文読んで、ipadでブログを書いてみたけど、アプリを行ったり来たりするのも面倒だし、書くのも面倒だし、いい事あんまりない。

オープンハウスとCICP(2)

昨日は結局5時頃寝たので,午前中は睡眠で潰した.
午後はまずNTT CS研のオープンハウスへ.昨年は何聞いても全然わからないような状態だったけど,今年は少し余裕がある.こっち来て一年機械学習に触れてきて,多少は知識が増えているようだ.
その後は大学に行ってCICP申請書を書く作業.今日の作業は23時頃終ったけれど,未だにプロジェクト名が決まっていない.しっくり来るのがなかなかない.明日締切だから,なんとか良いようにまとめないと.

CICP

http://cicp.naist.jp/
今年もまたCICPの申請書を書いてる.今年はリーダーじゃないから気楽.去年も思ったけど,面白いテーマ考えて申請書書く作業はなかなか楽しい.

ただし,ミーティングが午前3時に終わるのはキツイ.

Latent Multi-group Membership Graph Model[Kim, ICML'12]のざっくりメモ

Jure Leskovecのところの論文.似たような論文がJureのところから出ていた気がするし,論文に載ってる図もどこかで見たことがあるけど,きっとそれとは違うのだろう.
内容はネットワークの生成モデルの話.ただし,リンクとノードの属性ベクトルの両方を扱うことが出来るモデル.リンクが分かればノード属性が推定できるし,ノード属性が分かればリンクが推定できるというのがこのモデルのうれしいところ.
モデルの良さを示すために,3つの実験をしてる.

  • ミッシングノード属性予測
  • ミッシングリンク予測
  • 教師ありノード分類
    • ノード属性ベクトルの一つをラベル,それ以外の属性とリンクが事例として学習.

それぞれのタスクで,ベースライン(Relational Topic Modelとか)と比べて性能が同等かそれ以上であることを示してる.

ネットワークの生成モデルとかリンクとノード属性の両方を捉えるモデルは既にあるので,それらと何が違うのかをDiscussionで述べている.

  • これまでのリンクとノード属性の両方を捉えるモデルは,隠れたグループ構造は考えられてなくて,だから次元削減によるベネフィットとかネットワークコミュニティの理解に役立つクラスタが生成できなかった.
  • 従来のモデルは,ノードはドキュメントを想定していたから,ノード属性は多項分布からの生成を仮定していた.提案法はロジスティックモデルを仮定してる.

モデルの詳細や推論方法はまた今度読む.