琥珀色の戯言

【読書感想】【映画感想】のブログです。2016年8月より、『はてなブログ』に移行しました。

【読書感想】データ分析の力 因果関係に迫る思考法 ☆☆☆☆

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)


Kindle版もあります。

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

内容紹介
本書では「広告が売り上げに影響したのか?」「ある政策を行ったことが本当に良い影響をもたらしたのか?」といった、因果関係分析に焦点を当てたデータ分析の入門を展開していきます。なぜ因果関係に焦点を当てるかというと、因果関係を見極めることは、ビジネスや政策における様々な現場で非常に重要となるためです。また、この「因果関係の考え方」について、数式を使わず、具体例とビジュアルな描写を用いて解説していきます。


 インターネットでの慣用句として「ソースを示せ」っていうのがありますよね。その主張の根拠となるようなデータや事実を教えてくれ、というのを、ちょっと高圧的に要求する表現なのですが、世の中には、偏っていたり、間違った「データ」をもとに、自信を持って何かを主張したり、他者を否定する人が少なからずいるのです。
 中には、あるデータを自分に都合が良いように解釈しているにもかかわらず、それが「客観的な事実」であるように見せかける人もいます。


 「ビッグデータ」で何でもわかる、と思われがちだけれど、何を調べるか、どう解釈するかを判断するのは、まだ人間の仕事なのです。
 データが無いものを疑うのは当然としても、データが出ているからといって、盲信するのも得策とは言えないんですよね。

 情報通信革命によって、多くの人が比較的容易に良いデータ(ネタ)を手に入れられるようになりました。これは素晴らしいことです。しかし、同時に「データをどのような角度で切るのか」というセンスや思考法を身につけないと、せっかくのネタを生かす分析はできません。
 また、どんなに美しいデータ分析ができても、それがデータ分析結果を必要とする側にとっての課題に答えてくれるものでないと、素晴らしい分析結果なのに全く役に立たない、本末転倒なことになってしまいます。
 では、データ分析を行うにあたって、具体的にはどのような考え方や技能が必要とされるのでしょうか。
 この点について新書レベルで解説してくれる入門書があれば、多くの方にとって有用かもしれない、と考えたのが本書を書くに至った出発点です。


 この新書は、そういう「データの分析のしかた」を数式などは使わずに、わかりやすく説明しているものです。
 データサイエンティストを目指している、とか日常業務で統計学やデータ分析に親しんでいる、という人には初歩的すぎるかもしれませんが、「新聞や雑誌やテレビ(もちろんネットも)で提示されているデータに踊らされないための基礎知識が詰まっています。


 自分は文系だから……という人にこそ最適な「データ分析の最低限の知識・考えかたを身につけられる本」だと思います。

 本書では「広告が売り上げに影響したのか?」「ある政策を行ったことが本当に世の中にとって良い影響をもたらしたのか?」といった、因果関係の解明に焦点を当てたデータ分析入門を展開していきます。なぜ因果関係に焦点を当てるかというと、因果関係を見極めることは、ビジネスや政策における様々な現場で実務家にとって非常に重要となるためです。
 例えば、オバマ前大統領は2012年の選挙戦で、選挙広告戦略の因果関係を適切に見極めたため、約6000万ドル(72億円)の追加的選挙支援金を集めることができました。IT企業のグーグルは、ウェブサイトの文字の色と閲覧者数の因果関係を分析することで利益を伸ばしています。また、タクシー業界の新規参入者であるウーバーは、価格と消費者行動の因果関係を見極めることで、タクシードライバーの数と利用者数を最適化できる方法を取り入れています。
 昨今では、因果関係分析によって最適なビジネス戦略を見極めることは多くの企業にとって日常的なものとなってきているのです。
 また、因果関係分析を真剣に行うと、良かれと思って行った政策が予測しなかった結果をもたらしたり、逆に効果が小さいと思われていた政策が実は大きな政策効果を生み出していたことも明らかになります。
 例えば、日本政府が自動車の燃費を改善するために行っていた環境政策が、実は自動車の重量増につながっていたことがわかりました。アメリカ政府が景気刺激策として行ったエコカー政策は、単なるバラマキ政策で景気刺激にはあまり役立たなかったこともわかりました。また、青少年への犯罪防止教育には予想以上の犯罪抑止効果があり、さらに学業へも良い結果が出るという、予想外の政策効果も明らかになりました。


 実際のところ、この「因果関係」をきちんと把握・分析するというのは、けっこう難しいのです。
 そしてそこに、つけこもうとしてくる人たちは、少なくありません。
東日本大震災は、天罰である」と言う政治家には、さすがに開いた口が塞がらないのですが、そういう「自分に都合の良い因果関係」をつくりあげて、他者を惑わす人は、少なからずいます。


 著者は、「もしあなたがアイスクリームを売る企業のマーケティング部に属していたら?」という例をあげています。
 2010年に、ある商品のウェブ広告を出したところ、2009年に比べて、40%の売上増を達成していたとします。
 そこで、あなたはこう上司に報告するのです、「広告の影響で、2010年の売上は、前年より40%も伸びました!」と。

 さてここで、なぜあなたの結論が間違っている可能性があるのか考えてみてください。どんな可能性が考えられますか?
 ここでの問題は、


「広告を出した → 広告の影響で売り上げが40%伸びた」


 という広告から売り上げへの因果関係(英語ではcausal relationship、もしくはcausalityと呼びます)が、あなたのデータ分析結果から導けるかどうかです。 
 例えば、2010年の夏が2009年の夏よりも猛暑だった場合はどうでしょうか?
 実際に日本では2009年は比較的冷夏で、2010年は猛暑でした。その場合、40%の売り上げ増というのは、広告の影響ではなく、単に気温が高くなったために消費者がアイスクリームを求めたから、という可能性はないでしょうか?


 その他にも、景気の影響など、さまざまな要因が考えられ、この「40%増」がウェブ広告の効果なのかどうかを評価するのは、簡単なことではないのです。

 こうやって説明されてみると、データ分析から因果関係を導くことの難しさは直感的に理解できると思います。ところが、ニュースや新聞を見てみると相関関係と因果関係を混同させた怪しい分析結果は世の中に溢れています。さらに問題なのは、怪しい分析結果に基づく単なる相関関係が「あたかも因果関係のように」主張され、気をつけないと読者も頭の中で因果関係だと理解してしまっていることが多いという点です。
 以下の例は、実際に著者が見かけたことのある新聞記事の抜粋です。


「ある企業では社長が代わった次の年に株価が上昇した。これは新社長の改革の成果である」
 →社長が代わった以外にも株価が上昇した他の要因があり得る。


「マンションの高層階に住む女性の不妊率が高いことがデータから示された。よって、子供を産みたい女性がマンションの高層階に住むのは危険である」
 →マンションの高層階に住む女性と低層階に住む女性では、所得・年齢・職業など様々な別の要因が違う可能性があり、高層階に住むことが本当の要因なのかは明らかではない。


 こうして身構えて読むと、「こんなことに騙されるわけないよ」と思われるかもしれません。
 でも、こういう話が、新聞記事のなかに含まれていたら、「そういうものなのか……」と、信じてしまいがちなんですよね。
 そして、こういう記事が出てしまうくらい、新聞記者たちも、「因果関係」や「統計」のことを知らないのです。
 ネットでの「センセーショナルな統計結果」って、こういう「言いたいことを言うためにつくりあげられた因果関係」に基づくものが多い気がします。


 この新書のなかでは、「それでは、正しく比較をしたり、効果を評価するためには、どうすればいいのか」についても、詳しく説明されています。
 ランダム化比較試験(RCT)やRDデザイン、「自然実験」「パネル・データ分析」などの紹介や、現状でのデータ分析の限界への言及など、「初心者が知っておくべき最低限のこと」が網羅されているんですよ。
 子供の絵本のように読みやすい、とは言いませんが、類書のなかでは、かなりわかりやすく、実践的だと思います。数式が全く出てこないのも、正直、助かります。
 本格的にやろうと思えば、数学的なアプローチは避けて通れないとしても、間違った因果関係にそう簡単に騙されない、というだけでも、いろんなリスクを避けられる可能性は、かなり高まりますから。


 「ソースを出せ!」と息巻く前に、自分がそのソースの見かたをちゃんと理解しているかどうかを考えてみてください。
 いまひとつ自信が持てないのであれば、この新書は、あなたの役に立ってくれると思います。


fujipon.hatenadiary.com

アクセスカウンター