公式RTと非公式RTの数の比較

 実験用のデータを使って、ちょっと調べてみました。「公式RT、非公式RTの数

背景(読み飛ばしても大丈夫です^^;)

 非公式RTはユーザが独自に開発した文化であるということは有名です。長い間、この文化が使用されてきました。公式RTも今年の1月ごろから日本でも始まって、最近かなり普及してきたと思います。ただ、それでも完全に移行しきれないのは、非公式RTは自分のコメントを書けるからではないかと考えられます。
 公式RTと非公式RTで役割の棲み分けは出来てきているようですが、非公式RTに嫌悪感を示す人たちが結構いたりします。特に、連鎖したRTの情報発信源の人が迷惑を被ることがあるようです*1。一方で、公式RTは非公式RTの嫌悪感の要因の一つであった「元情報の欠落」を防ぐことが出来ます。すなわち、もともとの発言を曲げられて本来の意図とは異なる意味で拡散することが防げます。
 ちょっと立場をかえて、Twitterのデータを調べたい人の視点から書きます。公式RTはとても扱いやすいです。なぜなら、TwitterAPIで決められているフォーマットで情報が手に入るから。表記揺れがないために(テキスト処理を考えてる方は違いますが)、情報をまとめやすいのです。一方で、非公式RTはテキスト処理が必要です。しかも、RTのフォーマットはいろいろで、「RT @username: 〜」と書く人もいれば「RT: 〜 via @username」と書く人もいるし、もちろんこれ以外のフォーマットを使う人がいて、データの前処理が大変になってきます。

目的

 何のためにやってるんだってのは本当は重要なんでしょうが、特にありません(汗)

やったこと(ここから本題)

タラタラと公式RTと非公式RTについて書きましたが、本題に入ります。今回調べたことは、

です。

使ったデータとやり方

 使ったデータは、TwitterのStreaming APIのfilterメソッドを使って「RT」というキーワードで取得した、2010年10月7日から10月14日までのツイートデータです。ただし、その期間に起きた全てのRTのデータではありません。
 やり方についてですが、公式RTを見つけることは簡単です。なぜなら、データに'retweeted_status'が含まれていれば、これが公式RTだからです。非公式RT正規表現を使って取得しました。ただし、非公式RTのフォーマットは様々なので全ての非公式RTを正しく抽出するのはほぼ不可能です。なので、できるだけ多くにマッチするように(少なくとも、「RT @username: 〜」と「RT: 〜 via @username」に対応できるように)、以下の正規表現パターンで抽出しました。

# Python
r = re.compile(r"^.*?RT(:|:|\s)");

結果

公式RTと非公式RTの数の比較

言語 公式RT 非公式RT その他
日本語 894,728(26%) 2,338,774(69%) 156,457(5%)
他言語 12,858,299(45%) 15,417,071(54%) 506,697(1%)

表1. 日本語とそれ以外の言語のRTタイプ別の個数


 表1は、日本語とそれ以外の言語のRTタイプ別の個数です。「その他」の列は正規表現のパターンに合わなかった物になります*2。これを見ると、日本語と他言語でタイプ別RT数の違いが分かります。ただ、今回の正規表現のパターンは日本でよく使われてるパターンなので、もしかすると海外では別のフォーマットが多用されている可能性もありますけど(その辺はよく知りません)。
 違いが顕著なのは、公式RTの比率ですね。僕は「海外、公式RT多いなー」と思いました。この原因の一つは、日本での公式RTのスタートは海外よりも遅かったので、海外と日本の間の浸透度の違いかなと考えられます。あとは、非公式RTの使い方が違うかもしれませんね。日本では非公式RTを使って返信すると。あくまで予想ですけど。僕の話ですけど、例えばEmailでは質問に対する回答で引用をよく使うので、そういう文化の影響のあるのかも?(どこの国もそうかもねw)実際、@だけの返信ではどのツイートに対してなのか分からないということがままあります。この辺の国ごとの違いを文化研究の人とかに調べてもらいたいです。

コメントなし非公式RTの割合

言語 コメントありRT コメントなしRT
日本語 2,155,642(92%) 183,132(8%)
他言語 9,320,195(60%) 6,096,876(40%)

表2. 言語別のコメントありRTとコメントなしRTの個数


 表2は、言語別のコメントありRTとコメントなしRTの個数です。これはまた意外な結果ですねー。てっきり、日本ではコメントなしRTが多いものかと思いましたが、とても少ない。だから、日本人は非公式RTを使うときは何らかの自分のコメントを残したい時なんですね。そして、ただ単に拡散させたいなら公式RTを使っていることが伺えます。逆に他言語でのコメントなし非公式RTの割合は大きいですね。

まとめ

 まず、ここまで見ていただいてありがとうございます(><)
 今回は2つの表を見ていただきました。この2つの表をまとめて、僕なりに思ったことがあります。

  • 日本人の間で、コメントなしRTの悪評が広がってる?
  • 日本人は他人のツイートについて、自分の意見を付けて人に伝えたい人が多い?
  • 外国でTwitterってどうやって使ってんだろ(汗)

 まず1つ目の「日本人って、割とルールを守れる?」は、思ったよりもコメントなしRTが多いことについてです。コメントなしRTに対する嫌悪感を持つ人は結構いるらしいのですが、そう思えるのはごく一部の人だと思われます(僕は、僕のツイートがそんなに広がったことがないのでわかりません)。そういう発言力のある人が「コメントなしRT嫌い」と言っているわけですから、結構このことは周知なのかもしれません。
 2つ目の「日本人は自分の意見をつけて人に伝えたい人が多い?」は、2つの表から、日本語では公式RTが少なくて、かつ非公式RTでもコメント付きが多いです。逆に他言語では、公式RTは多く、非公式RTはコメントなしが比較的多いです。このことから比較的日本語では、RTを使うときは何らかのコメントが付いていることが多いことが推測されます。確かに、面白いなと思うツイートに対しては自分の感想を付けてRTしたいと思いますし、はてブとか見てると結構コメント付けたくてブックマークしてる人とか多い気がします。しかし、海外の方がそう思わないとは思えないので、何とも言えませんけどね。
 3つ目の「外国でTwitterってどうやって使ってんだろ(汗)」は、今回僕は日本人のRTの感覚で分析しましたけど、海外では使われ方が違うのかもしれない。RTと似たものでQTというのもありますし、もしかすると、コメント書きたかったら@付けた返信で済ますのかも知れません。今回のこの数字の違いは、そういった使い方の違いによる影響の可能性もあるということをちゃんと考えなきゃいけないですね。

 
とこんな感じです。
 雑な分析で少々お見苦しい感じがしていますが、でもTwitterのデータは面白いので、またブログの方で書けたらいいなと思います。
 

 

*1:自分が非公式RTを嫌悪するワケ - mizchi log

*2:文脈の中でRTと入っていたりするものなど