WWW2014のTwitterソーシャルグラフに関する論文を読んだよ。
Information Network or Social Network? The Structure of the Twitter Follow Graph
Information Network or Social Network? The Structure of the Twitter Follow Graph
Twitterのフォロー関係をソーシャルグラフにしたときの各種特徴量を計測して、
その値がSNSっぽい値なのか、そこから外れているのかを評価していくというもの。
その中で、日本のユーザにだけすごく特徴的な結果が出ているものがあるらしいってので読んでみました。
論文の内容で気に止まったものをメモがてら書きます。
論文の内容で気に止まったものをメモがてら書きます。
そもそもグラフとは
頂点とそれを結ぶ辺からなる情報構造のこと(グラフ理論 - Wikipedia)。
そしてグラフ構造で人付き合いのようすを表現したものがソーシャルグラフですね。
ユーザを頂点とし、フォローしあっているユーザを矢印で結ぶとTwitter上のソーシャルグラフができます。
評価の方法
分析対象データは2012年下半期のある時点のフォロー関係をスナップショットとして保存したもの。
分析処理はTwitter社内のHadoopクラスタでPigを使って実行した。
Pigか。。。統計量の算出とかがメインで、グラフのトラバースとかはやってないんだろうな。
参照する先行研究としては
- Facebookのソーシャルグラフを分析したThe Anatomy of Facebook Sochial Graph
- MSNメッセンジャーのソーシャルグラフを分析したPlanetary-scale views on a large instant-messaging network
- SNSのソーシャルグラフではこの特徴量はこうなるというのを調べた研究
(どれも読んでません!!)
など。TwitterのソーシャルグラフはFacebookやMSNメッセンジャーと比べてどうなのか、それは「SNSっぽい」値なのか、を検討しています。
フォロー/フォロワー/相互フォロー数による分析
フォロー/フォロワー/相互フォロー数の規模ごとにどれくらいのユーザが分布しているのかを分析しています。
Twitterはスパムアカウント対策として、2000件以上フォローするにはフォロワーが2200人以上必要という仕様になっているんだそうな。
ということで、フォロー数の分布は2000人の所でがっくりとギャップができています。
ということで、フォロー数の分布は2000人の所でがっくりとギャップができています。
3つの分布を比べると、だいたいのユーザはフォロー数のほうがフォロワー数よりも多いらしい。まぁ、そうですわな。。。
論文ではこのセクションを「ソーシャルグラフにしてはフォロー/被フォローの規模が多きすぎるのでSNSっぽくない」と結論づけています。
論文ではこのセクションを「ソーシャルグラフにしてはフォロー/被フォローの規模が多きすぎるのでSNSっぽくない」と結論づけています。
Facebookについて語る時にも言われることなんですが、人間が友人関係をきちんと保てるのは同時に150人が限界、それはSNS上でも同じ、ということで、
フォロー何千というユーザがもりもりいるような状態はSNSっぽくないということのようです。
ただ、データの載ってる表から分位数のところを見ると、75%のユーザはフォローが121以下、相互フォローは50以下ということになるので、充分SNSっぽい数字じゃね?と思うわけですが。
厳密には、共通の頂点Aと繋がっている頂点Bと頂点Cがあったとき、頂点Bと頂点Cが繋がっている割合ということですね。
これを折れ線グラフにしたものがおもしろいんです。
ふつうの人間関係であれば、自分の友達が友達同士である割合は高いと思います。
でもTwitterにはフォロー/フォロワーが鬼のようにいる人もいます。Twitterを「個人のつながり」のツールとして使ってない人々、たとえばパリスヒルトンやらオバマ大統領やら、企業のアカウントやら、そいういうアカウントのことです。
ということで、相互フォローの規模が大きいユーザほど、必然的にクラスタ係数も落ちてきてしまいます。
ところが日本のユーザに限っては、相互フォロー数が100から1000に伸びるにつれてクラスタ係数が上がるんですね(グラフ(b)の緑色の系列)。
つまり日本にだけ、みっしりしたアルファツイッタラークラスタ的なものがあり、それがグラフのしっぽを押し上げているということです。
これのせいで全体の値(グラフ(a))もちょっと形が変わってしまっています。
他にも論文では、
ということを指摘しています。
なお、論文中でクラスタ係数を評価して得られた結論は、「TwitterはSNSっぽい」だったようです。
いろいろ評価した結果、「TwitterはSNSっぽい」となる指標もあれば「SNSっぽくない」となる指標もでてきます。
全体の結果を受けて論文では、Twitterユーザがフォロー/フォロワーを増やしていく様子として以下のような行動を想定したようです(おおいに意訳含む)。
論文をきっちりと読み込んでないのでわかんないのですが、この想定がデータだけから出てきたんだったらすごいですね。「たしかにそうだなあ」という感じしますよね。
私はTwitterを始めたきっかけがモブストライクというソシャゲーだったので、初期のフォロワーはモブストライクで仲間がほしい同士の普通の知らない人だったわけですがw
フォロー関係だけでなくリストに入れているかどうかというのも分析すると面白そうだと思いますね。きっとリストでできる関係は、SNSというよりは情報基盤的な形をしているんじゃないかと思います。
以上。それでは。
フォロー何千というユーザがもりもりいるような状態はSNSっぽくないということのようです。
ただ、データの載ってる表から分位数のところを見ると、75%のユーザはフォローが121以下、相互フォローは50以下ということになるので、充分SNSっぽい数字じゃね?と思うわけですが。
クラスタ係数による分析
クラスタ係数とは、自分の友達が友達同士である割合のことです。厳密には、共通の頂点Aと繋がっている頂点Bと頂点Cがあったとき、頂点Bと頂点Cが繋がっている割合ということですね。
これを折れ線グラフにしたものがおもしろいんです。
![]() |
論文より引用 |
ふつうの人間関係であれば、自分の友達が友達同士である割合は高いと思います。
でもTwitterにはフォロー/フォロワーが鬼のようにいる人もいます。Twitterを「個人のつながり」のツールとして使ってない人々、たとえばパリスヒルトンやらオバマ大統領やら、企業のアカウントやら、そいういうアカウントのことです。
ということで、相互フォローの規模が大きいユーザほど、必然的にクラスタ係数も落ちてきてしまいます。
ところが日本のユーザに限っては、相互フォロー数が100から1000に伸びるにつれてクラスタ係数が上がるんですね(グラフ(b)の緑色の系列)。
つまり日本にだけ、みっしりしたアルファツイッタラークラスタ的なものがあり、それがグラフのしっぽを押し上げているということです。
これのせいで全体の値(グラフ(a))もちょっと形が変わってしまっています。
他にも論文では、
- 日本人は、アメリカ・ブラジルと比較してクラスタ係数が高い
- ていうか日本人は地球上で一番クラスタ係数が高い
- 日本人はリフォロー率が高い
ということを指摘しています。
なお、論文中でクラスタ係数を評価して得られた結論は、「TwitterはSNSっぽい」だったようです。
結論
その他の特徴量はざっくり飛ばします。いろいろ評価した結果、「TwitterはSNSっぽい」となる指標もあれば「SNSっぽくない」となる指標もでてきます。
全体の結果を受けて論文では、Twitterユーザがフォロー/フォロワーを増やしていく様子として以下のような行動を想定したようです(おおいに意訳含む)。
- Twitterをはじめたてのユーザはなんだかよくわからないので有名なアカウントをフォローする。
- いくらか歴が長くなってくると、アルファツイッタラーだからといってホイホイフォローするようなことはなくなる。
- そのうち知人と「Twitterやってんの?フォローしてよ!」みたいなことになったり、自分の居心地のいいクラスタを見つけてそこに溶けこむようになるSNS的な使い方がはじまる。
- やがて、有名人だからといってフォローしたアカウントはフォローから外す。
論文をきっちりと読み込んでないのでわかんないのですが、この想定がデータだけから出てきたんだったらすごいですね。「たしかにそうだなあ」という感じしますよね。
私はTwitterを始めたきっかけがモブストライクというソシャゲーだったので、初期のフォロワーはモブストライクで仲間がほしい同士の普通の知らない人だったわけですがw
フォロー関係だけでなくリストに入れているかどうかというのも分析すると面白そうだと思いますね。きっとリストでできる関係は、SNSというよりは情報基盤的な形をしているんじゃないかと思います。
以上。それでは。