ベストセラーを科学する──『ベストセラーコード「売れる文章」を見きわめる驚異のアルゴリズム』

冬木糸一 2017年5月25日

サイエンス小説

作者:ジョディ・アーチャー　翻訳:川添節子
出版社:日経BP社
発売日:2017-03-23

本書は、「ベストセラー小説に普遍的な法則は存在するのか?」という問いかけを、独自の判定モデルをつくりあげ検証した著者らによる一冊である。小説がヒットするかどうかは時の運という人も多いし、実際運が関与しない事象などこの世に存在しないともいえる。そうなってくると次に出てくる問いかけは運の割合はどの程度のものか?　である。本書はそれを分析してみせる。

手法のひとつを簡単に説明すれば、まず小説の特徴を抽出するアルゴリズムを用いて評価したい本の各特徴を分類／定量化する。その後、ベストセラーと非ベストセラーを大量に読み込ませ、機械学習を用いてベストセラーの特徴を学んだアルゴリズムに、抽出した特徴を投入することでベストセラーになるかどうかを80パーセントの確率で判定することができる。これで分析できるのはどのトピックが売上に関連しているのかだが、本書はその他にもプロット、キャラクタ、テーマ、そのらがどの程度売上に関連しているのかといった多くの物事を明らかにしていく。

明らかになりすぎる、といってもいいかもしれない。とんでもなく刺激的な一冊だが、これが広く読まれ、ベストセラー特有の傾向を誰もが作品に活かし始めたら、市場の作品の画一性は増し、僕の好きなタイプの作品が書かれなくなるのでは……(たとえば宇宙での戦いや宇宙船が出て来る物語はベストセラーとは相性が悪いと指摘される。早川書房の偉い人がこれを読んだらヤバいではないか)と多大な危機感さえも湧いてくる。広く読まれてほしくないとさえ思ってしまう。

トピック、プロット、文体

それではもう少し具体的にベストセラーの特徴と、その判断に用いられる要素を追っていこう。ひとつは先にも触れた”トピック”である。法律、釣り、家族、何でもいいが小説内に何度も出てくる単語があれば、それは作品内での主要なトピックだとアルゴリズムは判断する。たとえば、意外なことだが、ベストセラーと比較すると非ベストセラーではセックスに関する描写が2倍でてくることがわかっている。モデルによれば、各章にセックスが出てくる本がベストセラーになることはほとんどないという。つまり、売りたければセックス描写は控えめにした方がいい。

“売れるトピック”と”売れないトピック”の分析も重要だが、トピックの数を作品内でどう調整するかも重要であることがわかっている。たとえば、売れる作家は冒頭3分の1にひとつかふたつのメイントピックしか入れないのに対して、売れない作家はたくさんの項目(3分の1に到達する前に3つかそれ以上のトピック)を詰め込んでしまう。また、ベストセラー作品では2番目以降のトピックは1番目のトピックと衝突を示していることも分析からわかる。たとえば子供と銃、信仰とセックス、愛とヴァンパイアなど、二つの単語をみただけで大きな問題が起こる予感がする。

本書は他にもプロットの分析を行い、小説は主に7つのプロットに分類されることを示し(それがどのような起伏を持っているのかも解説されるので、作家志望には特に参考になるだろう)、プロットに関しては売れるためにはどれが一番ということはないことを明らかにしてみせるが、個人的に興味深かったのは”文体”についての分析だ。たとえば、時折人気作家は自身の名前を伏せて、別の名前で小説を発表してみせる。作風や文体から話題になってバレることが多いようにも思うが、文体から個人を判断する、文体の特徴を機械的に抽出することはできるのだろうか？

といえば、これがある程度はできるようだ。原稿をばらばらに分解し、名詞、福祉、形容詞などを集めれば、書き手がどのくらいの頻度で形容詞を使うかといった情報が割り出せる。『ダヴィンチ・コード』でダン・ブラウンは100ワードごとに平均7回theを使っているが、『法律事務所』のジョン・グリシャムは平均6回に満たない、というようにtheの使用頻度だけでも作家ごとに特徴があって、書き手の個性を推測できる。著者らによると、71パーセントの確率で書き手の性別さえも判定可能だというから、文体の情報量の豊かさには驚かされるばかりだ。

その上、「the」や「of」を用いた回数、特定の単語の使い方は売上の多寡の指標になるとモデルは示している。たとえば、「do」はベストセラーではそれ以外と比べ2倍の頻度で登場し、veryは逆に半分しか登場しない。つまり、文体は売上的にも重要な意味を持っており、どのような文体が効果的なのかについても、本書は法則を明らかにしている。

活用方法は広い

他にもベストセラーの書き出しにはどのような法則性があるか?　ベストセラー判定モデルがもっとも売れると判断した一冊は何か?　キャラクターの行動の違いによって売上に違いは出るか?　など魅力的な問いかけが連続するが、キリがないのでこんなところで終わりにしておこう。

本書で明らかとなる結果の中には古来から作家や批評家に指摘されてきたものも多い。プロットに特定の類型があること、ペンネームの異なる同一作家の共通性を見抜く人も数多くいる。とはいえここで重要なのは、再現可能な形で、より機械的にそれらが判断できることだ。後に大いに売れた作品が、最初は出版エージェントに断られ続けた──などという話はいくらでも聞くことが出来るが、このベストセラー判定モデルにかけることでそうした悲劇は少なくなるだろう。

より未来に目を向けると、人工知能が小説を自動生成した場合、どこかのタイミングでその内容を評価し、フィードバックすることで精度を上げていく必要がある。そこでこのベストセラー判定モデルを使えば、「書くAI」と「読み、評価するAI」で高速の評価／小説生成ループを構築することも可能になるかもしれない──と考え始めると活用範囲は非常に広く(新人賞の選考とか……？)これまたキリがないが、本書の試みは小説の世界を一変させる可能性を秘めている。

それが読者や人間の作者にとっていいことなのか悪いことなのかは僕には判断がつかないが、どちらにせよこの流れは止めることはできないだろう。