『統計学が最強の学問である』 統計リテラシー、あると何かと便利です。

2013年2月28日 印刷向け表示
  • このエントリーをはてなブックマークに追加
統計学が最強の学問である

作者:西内 啓
出版社:ダイヤモンド社
発売日:2013-01-25
  • Amazon
  • Amazon Kindle
  • honto
  • e-hon
  • 紀伊國屋書店
  • 丸善&ジュンク堂

いかなる分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる。それが、統計学が最強の武器たりうる所以である。

本書では、医療や企業経営などの分野でデータ分析・活用の経験を有する著者による領域横断的な解説を通じ、統計学の世界を俯瞰できるようになっている。統計リテラシーを身につけたい方の入門書としてもおススメの一冊だ。

「疫学」とは原因不明の疫病を防止するための学問であり、ここでも統計学がその威力を発揮する。仮にあなたが数十万の人命を左右しかねない場面に立たされたなら、有効な施策を打ち出すためには自身の勘や経験よりも、データと統計解析に基づいたエビデンスを頼みとするであろう。

人類史上はじめて疫学が用いられたのは19世紀のロンドン。当時イギリス全土ではコレラが四度の大流行を起こし、合計数十万人もの死者を出した。そこで「疫学の父」と呼ばれる外科医のジョン・スノウが行なったことはごくシンプルだ。

現場の環境を良く観察し、同じような状況下でコレラにかかった人とかかっていない人の違いを比べる。仮説が得られたら大規模にデータを集め、コレラの発症/非発症と関連していると考えられる「違い」について、どの程度確からしいか検証する。

その結果、異なる2つの水道会社を使う家々の間で、コレラによる死亡リスクが8.5倍もの差があることを発見する。細菌学者ロベルト・コッホによる病原体「コレラ菌」の発見から遡ること30年のことだが、コレラの発症メカニズムや病原体が何であれ、その流行をとめるには飲料水の水源を変えさえすればいいという事実に変わりはない。よって、導かれる結論は

「とりあえずしばらくは水道会社Aの水を使うのを止める。以上!」

残念なことにスノウの主張は「科学的でない」あるいは「確実な証拠がない」として学会や行政からは退けられたが、彼の助言に従ってコレラに汚染された水の使用を止めた町ではぱったりとコレラの感染が止まる。以後、スノウの提示した「疫学」という考え方は、徐々に医学全域において欠くことのできない重要なものとなっていった。

「がんを減らしたければとりあえず喫煙率を下げろ、以上!」

「心臓病を減らしたければとりあえず血圧を下げろ、以上!」

疫学研究のシンプルな答えが、医学や科学者の侃々諤々の諸説の議論をぶっ飛ばしたことで、医学研究と健康政策の方針は変わり、50年前よりも我々の寿命はずいぶんと伸びた。現代医療でEBM(Evidence-Based Medicine)、すなわち「科学的根拠に基づく医療」が主流になるにつれ、教育、スポーツ、経済、経営など、統計学やエビデンスの利用は様々な分野に広まっている。

近年ではIT革新・情報技術の進展と相まって、統計的な手法を実社会や企業経営に活用しようという声はよく耳にする。「データマイニング」、「ビジネスインテリジェンス」、「ビッグデータ」、などなど。しかし、派手な営業トークの割りにそれらしい成功事例を目にしない理由は、技術ばかりが先行し、その導入がビジネスメリットにつながるという確証が得られない点にある。

逆説的に聞こえるかもしれないが、統計的素養があれば、実は大々的な投資などせずとも「データから効率のよい経営判断を行うこと」が可能であることが見抜けてしまう。本書で扱われている統計学の基礎さえわかっていれば、データに基づいて正しい経営判断を行なううえで、数千万円どころか数十万円の投資だってしなくてもいいことが分かってしまうのだ。

データ分析の第一歩は「因果関係」。その解析がかかったコスト以上の利益を自社にもたらすような判断につながるかどうか、それは分析結果がビジネスにおける具体的な行動に繋がるかどうかにかかっている。そしてそうした具体的な行動を引き出すためには、少なくとも以下の「3つの問い」に対して答えられなければならない。

【問1】何かの要因が変化すれば利益は向上するのか?

【問2】そうした変化を起こすような行動は実際に可能なのか?

【問3】変化を起こす行動が可能だとしてそのコストは利益を上回るのか?

統計的因果推論の基礎中の基礎といえば、「十分なデータ」をもとに「適切な比較」を行なうこと。その基礎さえ身につければ、経験や勘を超えてビジネスを飛躍させる裏ワザはもっと簡単に見つかるはずだ。

たとえば、ある小売企業においてデータ分析をした結果、もっとも大きな差を生んでいたのは「DMを送られていたかどうか」だ、ということが分かってきたとする。仮に、解析に2万人のランダムサンプルを用いたときの過去3ヶ月ごとのDM送付有無別客単価が、

送付ありグループが2300円 (n=1500)

送付なしグループが1800円 (n=18500)

とする。

集団全員にDMが送付されていたならば、2300円×2万人=4600万円、追加でかかる18500万人分のDM代(1通100円)を差し引いて4415万円、その4倍の1億7660万円が年間の想定売上高。もとの年間売上高である1億4700万円と比較し、売上が約1.2倍にもなる可能性が示されたことになる。

著者が携わった実際の事例では、さらに踏み込んで「DMを送られることで売上が伸びる顧客と伸びない顧客の違い」、あるいは「顧客の売上を伸ばすDMと伸ばさないDMの違い」とその判別ルールを明らかにしたという。こうした因果関係のための集計をクロス集計と呼ぶ。

しかしこのままでは単なる皮算用。意味のある差異かを明らかにするためには「誤差」を考える必要がある。商品のデザインや機能など、AパターンとBパターンを両方試して比較する「A/Bテスト」(統計学用語ではランダム化比較実験)で、例えば購買率に「0.1%」の差が出たとする。その差について、「意味のある偏り」なのか、それとも「誤差でもこれぐらいの差は生じるのか」といったことを確かめる解析手法としては「カイ二乗検定」が用いられる。

ここで「実際には何の差もないのに誤差や偶然によってたまたまデータのような差(性格にはそれ以上に極端な差を含む)が生じる確率」を、統計学の専門用語でp値という。このp値が小さければ(慣例的には5%以下)、それに基づいて「この結果は偶然得られたとは考えにくい」と判断できるのである。

ここまでクロス集計から誤差の判断基準まで、統計学の基本中の基本を駆け足でたどってみた。社内にすでに存在するデータを用いて売上を飛躍的に伸ばす打ち手が見つかる可能性から解析結果が有意かを検定する手法まで、その気になって統計リテラシーを身につける気さえあれば、敷居が高そうな統計学に自分でも手が届きそうな気がしてくるのがこの本の良いところである。

その他本書では、統計学では定番の回帰分析を用いて予選で好成績を収めた選手が本番で涙を飲んでしまう「オリンピックの魔物」の正体に迫り、最近流行のテキストマイニングでシェイクスピアの正体がフランシス・ベーコンではないかという噂の真相を探り、労働政策に見る「日本全体の統計リテラシー不足」に物申すなど、様々なエピソードを交え、たとえ前提知識に不安があっても統計学の主要分野を飽きずに俯瞰することが出来る。

現代のデータ社会を生きぬくための武器と教養として、統計学の素養があれば何かと心強い。統計学に近づく第一歩として、本書は最良の手引きになってくれるはずだ。

——

統計データはためになる!  ~棒グラフから世界と社会の実像に迫る~

作者:本川 裕
出版社:技術評論社
発売日:2012-09-22
  • Amazon
  • honto
  • e-hon
  • 紀伊國屋書店
  • 丸善&ジュンク堂

都道府県別の経済規模から世界各国の避妊法事情まで、棒グラフから世界と社会の実像に迫る。統計学の基礎知識がなくとも楽しめる一冊。レビューはこちら

ウォールストリート・ジャーナル式 経済指標 読み方のルール

作者:サイモン・コンスタブル
出版社:かんき出版
発売日:2012-02-22
  • Amazon
  • honto
  • e-hon
  • 紀伊國屋書店
  • 丸善&ジュンク堂

数字はウソをつかない。将来の経済トレンドの先読みに役立つ経済指標の読み方を分かりやすく解説した一冊。レビューはこちら

プロ野球を統計学と客観分析で考えるセイバーメトリクス・リポート1

作者:岡田友輔
出版社:水曜社
発売日:2012-03-10
  • Amazon
  • honto
  • e-hon
  • 紀伊國屋書店
  • 丸善&ジュンク堂

本書でも紹介されているセイバーメトリクス手法を用い、日本プロ野球を徹底分析。野球好きにはたまらない一冊。レビューはこちら。好評につき、第2弾も近日発売予定。

決定版-HONZが選んだノンフィクション (単行本)
作者:成毛 眞
出版社:中央公論新社
発売日:2021-07-07
  • Amazon
  • honto
  • e-hon
  • 紀伊國屋書店
  • HonyzClub

『決定版-HONZが選んだノンフィクション』発売されました!