『カルチャロミクス 文化をビッグデータで計測する』経済物理学における周辺研究 解説 by 高安 美佐子

草思社2016年02月18日 印刷向け表示
  • このエントリーをはてなブックマークに追加

言語が持つ普遍的な特徴

コンピュータを用いれば長い文章でも容易に、文章の初めから数えて何単語目に、今まで使ったことのない新しい単語が出現したかを調べることができる。文章の書き出しでは、当然、すべての単語が初めて出現した単語となるが、文章の中ほどになると、すでに使った単語を繰り返すことが多くなり、新しい単語の出現頻度は低くなる。何十万語からなるような文学作品などを調べてみると、最後の方になっても、なお新しい単語がときどき出現する。このような特性は、「最初からN単語目までの中に使われている異なる単語の数」をF(N)としてこれを計算することによって定量化することができる。そして、この関数 F(N)の曲線の形から、Nを無限大にした極限を想定することができ、書き手の潜在的な語彙力を推定することもできる。いわゆる文豪の文章の場合には、この関数は、Nが何十万という値になっても一定に増加を続ける傾向があり、潜在的な語彙数が非常に多いことがわかる。一方、文学作品などと比較すると、手軽に書き込めるブログなどでは、用いられている語彙数が少なく、比較的小さなNの時点で、F(N)の増加が止まる傾向がある。

しかし、文豪であっても、素人の書き手であっても変わらない特性もある。さまざまな言語で確認されている“言語が持つ普遍的な特徴”の筆頭が、本書にも登場するジップの法則である。「文章を単語に分解し、出現頻度の多い順にランキングすると、第k番目の単語の出現頻度が1/kに比例する」というジップの法則は、さまざまな言語で書かれた書籍などの解析から、かなり普遍的に成立することが知られている。最近では、作家が書いた小説でなくても、ブログ記事のような一般人の電子的な書き込みであってもこの法則が成立することが確認されており、人間が用いる言語の普遍的な特性として知られている。

ブログ記事では、ランキングに出てくる単語そのものは、書き手の個性によってかなり異なる。料理好きのサイトであれば料理名や素材名などが頻繁に登場し、また、漫画やゲームに関する記事であれば、作品名や登場キャラクター名がたくさん出てくる。それにも関わらず、ランキングごとの単語の出現頻度は、おおよそジップの法則を満たすというのは、驚きである。

ジップの法則が成立するのは、単語の出現頻度に限らない。たとえば、日本国内には100万社以上の企業があるが、それらの企業の年間売り上げの分布もジップの法則に従うことがデータから確認されている。企業を売り上げの大きい順にランキングをすると、ランキングがk番目の企業の売り上げは、おおよそ、ランキングが1位の企業のk分の1になっているのである。この特性は、日本だけでなく、世界のさまざまな国でも成立していることが知られている。その他にも、人口などで見た都市の大きさ、ヒット曲の売り上げなど、社会で見られるいろいろなランキングがジップの法則に従っており、その数理的な背景の理解に注目が集まっている。

ジップの法則とべき分布

ジップの法則は、数理的には、「べき分布」とよばれる分布の特殊な場合である。べき分布に従う身近な例は、ガラスを硬い床に落として大小さまざまな破片が生じた際の大きさの分布である。数少ない大きなゴロゴロとした破片、結構たくさんある中くらいの大きさの破片、そして、数えきれないほどの小さな破片にいたるまで幅広いスケールに大きさが分布する。このような分布は、「累積分布」とよばれる量を観測することで、特徴を定量的に評価しやすくなる。累積分布は、注目する大きさをxとしたとき、任意に選んだサンプルの大きさがxよりも大きい確率、P(>x)によって定義され、この関数がべき関数1/x^a に比例するとき、「指数がaのべき分布」とよぶ。ジップの法則とは、この指数aがちょうど1の場合である。

ランキングと累積分布は密接につながっている。あるサンプルの大きさがx、ランキングがk位であるということは、xよりも大きなサンプルが自分自身を含めてk個あるということを意味する。したがって、ランキングの順位を全数で割るだけで累積分布P(>x)が得られる。

指数aが1でない場合にまで拡張すると、べき分布が観察される物理現象は、非常に広範な領域に見出すことができる。ガラスの破片の場合には、xを破片の体積とすると、指数の値はほぼ3分の2であることが知られている。これと同じ指数が3分の2のべき分布は、小惑星の大きさの分布、地震のエネルギーの分布においても確認されている。河川の流域の大きさの分布、樹木の枝の大きさの分布などもべき分布で近似される。海の中の魚の群れの大きさの分布も、大気中を漂う微粒子であるエアロゾルの大きさの分布も、べき分布に従うことが知られている。

社会現象ではジップの法則で紹介した企業の大きさ分布、都市の人口の分布のほかにも、本の発行部数、ヒット曲の売れた数、株価や為替の市場価格の変動や個人の所得の分布、銀行間で送金されるお金の量などもべき分布で近似される。これらの多くの例からもわかるように、人間社会や経済現象の場合には、とくにべき分布が多く観測される。企業の売り上げの分布では指数はほぼ1であるが、企業の大きさは、売り上げだけでなく、従業員数や取引相手の数でも測ることができる。従業員数の分布で見ると、指数は 1.3程度、取引相手数の分布でも指数は1.3程度になることがデータから確認されている。ちなみに、取引相手数の分布がべき分布に従う特性は、複雑ネットワークの科学では「スケールフリー」とよばれる重要な特性である。スケールフリー性を有する複雑ネットワーク構造は、空港間の路線のネットワーク、人間関係のネットワーク、インターネットのホームページ間のリンク関係などさまざまな分野で見出されており、複雑なシステムに関する基本的な構造の理解を深めるための科学的研究が進められている。

書き込みの解析で社会のレジリエンスを高める

日本語で書かれたブログ記事を収集して解析することで、人々がどのような感情に関わる言葉を書き込んでいるのか、その時間変動を定量化することもできる。POMSとよばれる心理分析の手法にしたがって、「緊張、抑鬱、怒り、活力、疲労、混乱」の6つの基本的な感情に対応する単語群を特定し、それらの単語の増減によって感情の変化を定量化できる。たとえば、2011年の東日本大震災をきっかけに、書き込みに見られる感情が大きく変わったことがわかる。

感情と経済活動は関係が深い。感情の中で、とくに「活力」の変動は、株価ともかなり連動性が高いことがわかっている。また、景気に関する書き込みの良し悪しと景況感を表す既存の指標との相関関係を調査し、景気と連動するような口コミの指標を計算する研究も現在進んでいる。順調に研究が進めば、これまで集計に時間がかかっていた景気指標を、リアルタイムに近い形で提示することができるようになる可能性もある。このような試みは企業などでもすでにいくつか行われているが、本当の相関ではない偽相関のある単語をたくさん収集してしまったり、あるいはサンプルデータの特徴に過剰に適合した予測をしてしまうオーバーフィッティングにより、未来のデータとは整合しなくなるという問題が生じやすく、科学的に慎重に単語選びと数理モデル化を行う必要がある。

もうひとつ、関連した分野の研究として、ブログやSNSでの誤情報の拡散による社会的な損失を減らす方法の開発に関する研究プロジェクトを紹介する。2011年の大震災のときに実際に起こったことであるが、東京湾沿岸のガスタンクが爆発した直後、「毒を含んだ雨が降る可能性があるからカッパなどの雨具を用意した方がよい」という誤情報がSNSを通して広まった。「天然ガスなので毒は発生しない」という正しい情報を発信する人もいたが、震災直後で過剰に人々が誤情報に反応して、誤情報の方が速く広く拡散してしまった。その後、ガスタンクのある市の公式のホームページにこの誤情報のことが発信され、それを契機に急速に誤情報を訂正する書き込みが増加し、まもなく完全に鎮静化した。このような噂の伝播は、従来は口伝えだったので記録が残らなかったが、ブログやSNSを使った場合には、タイムスタンプ付きの時系列として記録が残るので、後からどのように噂が拡散したのかを科学的に検証することができるようになった。

図2:SNSでの誤情報の拡散と鎮静化。小さな点ひとつひとつがツィッターのユーザーを表す。青い点(東日本大震災時の誤情報)がツィッターのユーザーネットワーク上を拡散している。
M.Takayasu et al, PLoS ONE 10(4): e01221443(2015)

インターネットの中の噂の伝播を数理モデル化し、どうすれば誤情報をいち早く修正し、鎮静化することができるかをシミュレーションによって解明しようという研究を、私達は、今、イスラエルの研究チームと共同で進めている。上記のガスタンク関連の噂は大きな害を及ぼすことはなかったが、噂はときとして、人々を実際の行動に駆り立てることもあり、そのため社会に大きな損失を生じさせる可能性がある。とくに災害時など、人々が不安な感情状態にあるとき、どのようにすれば人々が冷静さを保ち、正しい情報を選択し、いち早く平穏な状態に回復することができるかという研究は、社会のレジリエンスを高くする重要な基盤となる研究であると期待している。 

高安 美佐子(たかやす・みさこ) 博士(理学)。東京工業大学科学技術創成研究院ビッグデータ数理科学研究ユニットPI、准教授。専門は、ビッグデータ解析、経済物理学、統計物理学。著書に『ソーシャルメディアの経済物理学—ウェブから読み解く人間行動』『学生・技術者のためのビッグデータ解析入門』(いずれも日本評論社)などがある。  
カルチャロミクス;文化をビッグデータで計測する
作者:エレツ エイデン 翻訳:阪本 芳久
出版社:草思社
発売日:2016-02-18
  • Amazon
  • honto
  • e-hon
  • 紀伊國屋書店
  • 丸善&ジュンク堂
  • HonyzClub
1 2
決定版-HONZが選んだノンフィクション (単行本)
作者:成毛 眞
出版社:中央公論新社
発売日:2021-07-07
  • Amazon
  • honto
  • e-hon
  • 紀伊國屋書店
  • HonyzClub

『決定版-HONZが選んだノンフィクション』発売されました!