全世界の本を分析した研究記録──『カルチャロミクス　文化をビッグデータで計測する』

冬木糸一 2016年2月25日

作者:エレツエイデン　翻訳:阪本芳久
出版社:草思社
発売日:2016-02-18

世界中に存在する本の内容を読み取ってデータ化し、さまざまな形で利用できることを意図したグーグル・ブックス・プロジェクトが立ち上げられた時、そんなことができるのか(分量的な意味でも権利的な意味でも)と疑問に思ったものだ。それが今では、著作権侵害などさまざまな課題を残しつつも事業は継続し、検索した時にお世話になることも増えてきた。3000万冊以上の本をすでにデジタル化しているようで、その是非はともかくとしてもかなり大規模な計画だ。

本書の著者らは、この壮大なデジタル図書館に目をつけた。著者らのグループとグーグルが共同で開発した、Nグラム・ビューワーと名づけられたツールは、単語を入力することでその単語の出現頻度が時代に伴ってどのように推移したかを図で示してくれる。ある単語が、ある時点でどれだけの人の関心を集めているのかを知りたいのであれば、グーグル検索のワードを分析するのとたいして変わらないじゃないかと思うかもしれないが、これは「スキャンされた本」が対象であるために、数百年単位での変遷が見えるという点が大きく異なる。

それでいったいなにがわかるのかといえば、いろいろとしか答えようがない。文法がどのように変遷していったのかがわかるし、人物の名前を入れれば名声を獲得していく(あるいは忘却されていく)過程がわかる。政府による言論弾圧が行われた時の語句の動きは興味深いものだし、いくつもの単語を見てその時代ごとの変遷を見ていくと集団としての人間の行動を分析することもできる。とにかく「問いの立て方」次第で、いろんなことがわかるのだ。

カルチャロミクスとは何か

書名であるところのカルチャロミクスとは耳慣れない単語だが、Nグラム・ビューワーを用いた分析のように、歴史上の変化を定量的に示す、言語や文化、歴史の新たな研究手法のことをそう呼称しているようだ。本書は当然、その新手法で行われた研究とはいったいどのようなもので、それでどんなことがわかり、新しくできるようになるのかを紹介していく一冊になる。

利用者が痕跡としてオンライン上に残す情報の急激な増大に後押しされて、新たな観測装置が毎日のように次から次に登場しており、歴史はもちろん、地理学、疫学、社会学、言語学、人類学、さらには生物学や物理学の分野でも、これまで表に現れてこなかった側面が明らかにされてきている。世界は絶えず変化している。さらに、そうした変化に対する見方もまた変わりつつある。

上記で述べられているように、本書の事例はあらゆる分野に広がっている。たとえば人名の出現頻度から「名声」が定量化できるかを問うたり、リボルバーやジーンズといった「発明品」がどの程度の期間をおいてから一般に認知されていくのかを分析してみたり、ある事象(たとえば9.11テロとか)がどのような過程を経て忘却されていくのかを単語の出現頻度から導き出し、普遍的な「忘却曲線」が割り出せるかを実験してみたりとおもしろい例がざくざくと出てくる。

中でもおもしろかったのは検閲が行われる国家で起こる天安門事件のような「検閲対象の語句」の使用頻度分析だ。1989年の天安門事件発生直後、英語では天安門を意味する単語は急上昇しているのに比べ中国国内では一時的に関心が高まったものの、すぐに通常の状態に戻っている。実際の書籍が「本当に検閲されているのか」を人間が調査するとかなり手間であることを考えると、検閲が実際の書籍にどの程度の影響を与えているかを、それなりに確かな証拠で検証できることの意義は大きい。実用に耐えるかどうかは、とりあえずはまた別の話としても。

何の役に立つのかわからないがとにかくおもしろい例としては、be/was,do/did,know/knewなどの不規則動詞が英語の同士の使用頻度上位10位までを独占し、それ以外の数百語も軒並み使用頻度が高いことへの仮説──「目にしたり聞いたりする機会が少なくなればなるほど不規則動詞を覚えるのが難しく、忘れてしまうから使用頻度の低い不規則動詞は規則化されてしまう」を検証してみせたりもする。これによってある不規則動詞の使用頻度がわかれば、専用の式を使うことでその不規則動詞がいつ頃規則動詞へと変貌を遂げるのかもある程度予測できるようになる。

もっとなんかできることないの？

そういう「結果」はどれも新しくておもしろいし、文化的な変化を定量的に測るという意味で意義は大きいのだが、もうちょっとなんかできることないの？　と思ってしまうのも事実。もっとなんかこう、具体的には金を儲けたり不規則動詞じゃない未来予測とかはできないのか？　といえば、まだ始まったばかりの分野なだけにさまざまな形で実験中というところだろう。

たとえば、高安美佐子氏による本書解説に詳しいが、ツイッター上でタイムスタンプ付で誤情報が広まっていく過程などをモデル化し分析やシュミレーションを重ねることでどうすればいち早く誤情報の修正ができるのかなどを検証する研究も行われている。先程話題に出した検閲の例に関連したものでいうと、不自然に特定の語や言葉がメディアに登場しなくなる状況を検出することで、社会的に抑圧されている人物を割り出すことが可能になるなど活躍予定の場は広い。

小説では代名詞の統計的分析や、単語の使用頻度から行われる作家分析など、これまであまり交流のなかった科学と人文科学分野が実質混ざり合いつつあり、応用の幅は実質的にいくらでもある。今、もっとも熱い──は言い過ぎかもしれないが、かなり今後の展開がおもしろい分野であることは間違いない。それも、「どこかの誰かが研究に役立てている」だけではなく、そのうちTwitterやFacebookなどさまざまな場所に設置され、誰でも手に入れることのできる「文化用の虫眼鏡」のような、一般的な立ち位置を獲得していくかもしれない。

ちなみに、本書で検証に使われているツールであるN・グラムは現在無償提供されていて⇛Ngram Viewer　誰でもアクセスして使うことができる。僕も本書を読んだら即座にやってみたくなり、いろいろな単語を複数入れ、出てきたグラフを見てはキャッキャと次の単語を入れとしばらく遊んでしまった。真っ先に入れた単語はエロ系の単語だったが、これは時代によって性欲が減衰したり増大したりするのか(それが言葉によって推測できるのか)という学術的な好奇心に基づくものであったことは断りを入れておきたい。