琥珀色の戯言

【読書感想】【映画感想】のブログです。2016年8月より、『はてなブログ』に移行しました。

ウソを見破る統計学 ☆☆☆☆


ウソを見破る統計学―退屈させない統計入門 (ブルーバックス)

ウソを見破る統計学―退屈させない統計入門 (ブルーバックス)

内容説明
太った人ほど年収が高い!?
マラソン世界記録の限界が分かる!?
40歳までに結婚すると長生きする!?
その統計、信じていいの? 数字の裏に潜む「隠れた関係」をあぶり出し、事実を正しく見極める「統計思考力」が身につく。  大学で統計を教える主人公・素呂須譲二(そろすじょうじ)。彼のもとに、統計アレルギーの学生や怪しい営業マン、はては文系女子の妻や娘が次々と難題を持ち込んで……。平均、標準偏差から相関、検定、回帰分析、推測統計まで、難しい数式は一切使わず、統計の基本と使い方が会得できる!

久しぶりに『ブルーバックス』を読みました。
海堂尊さんの『死因不明社会』以来。

この本では「統計」に関するさまざなま知識が、比較的わかりやすく紹介されています。
なぜ「比較的」かというと、前半は僕にも十分理解可能だったのですが、後半は数式が並んでいる項も多くて、けっこう僕にとっては難しかったのです。
でもまあ、「統計に騙されない」ためには、この本の前半くらいの知識があれば、まず事足りるのではないかと。


ネットをやっていると、ある情報に対して「ソースを出せ!」というやりとりが頻繁にみられます。
その「ソース」の代表的なものは、大手メディアの記事や「統計」なわけですが、「自分はネットリテラシーがあると信じている人」の大部分は、この「統計学的なデータ」をみて、「納得」してしまうんですよね。
たしかに「数字はウソをつかない」。
でも、「数字の見せ方で、相手の印象を変えること」は、けっして難しいことではないし、さまざまな場で、僕たちは「統計から受ける主観に引きずられてしまう」のです。

もあ:ねぇお父さん、サラリーマンブラザーズ証券ってすごいよね。ボーナスの平均が7000万円だって。ボーナスだけで、お父さんの年収の何倍? 8倍くらい?


譲二:おい、やけにリアルな比率だな。なんでも俺の給料を基準に考えるなよ。大学職員の棒給表はガラス張りで嫌だなあ。迷惑だ。


もあ:平均の半分だとしても3500万円。いいな、サラリーマンブラザーズ。


譲二:名前がいかがわしいなぁ。サラリーマン兄弟じゃ、いかにも儲からなさそうじゃないか。


もあ:そんなことないよ。サラリーマンの兄弟が、一念発起して作った会社なんだって。すごい勢いで成長して、今じゃ就職人気ランキングの1位。私も受けてみようかな。


譲二:やめておいたほうがいいよ。


もあ:でも、7000万円には心が動くなぁ。これってボーナスだから、その他も入れたら軽く1億円超すよね。年収1億円なんてすごいじゃん。


譲二:そんなにもらえないから、たぶん。


もあ:まさかぁ。その半分でも?


譲二:たぶんもらえないね。だってさ、「平均」だろ。


もあ:平均だよ。ってことは社員の半分がボーナス7000万円以上ってことでしょ?


譲二:いや、全然そんなことはないと思うぞ。


もあ:なんでよ。個々の値は平均の近くに散らばるんでしょ? それくらい私にだって分かるよ。経済学部なんだから。


譲二:学部はともかく、この場合はそうならないんだ。なぜかというと、投資会社っていうところは、トレーダーみたいな職は歩合制で、ものすごい高額を稼ぐだろ。10億円稼いだら、報酬は5割の5億円みたいな仕事なんだから。


もあ:いいじゃん。しかも、7000万円よりも高いじゃん、今の例だと。


譲二:いや、そういう人がごく少数いるだけで、ボーナスの金額がものすごく大きくなるだろ。


もあ:うーん。そうかなぁ……。


譲二:たとえばの話、社員が10人いて、9人のボーナスは100万円だけど、1人だけ7億円のボーナスをもらっていたらどうなる? 10人のボーナスを平均したら、ざっくり7000万円になるよ。平均っていうのは、そういうものなんだ。

この例のように「10分の1の確率で、7億円」であれば、賭けてみる価値はありそうなものですが、実際は、もっと少ない割合の「高額ボーナスをもらっている人」が全体の「平均」を押し上げているのです。
ごく一部に引っ張られて「平均」が上がっても、大部分の「あまりもらえない人」には、あまり影響がありません。
貧しい地域にビル・ゲイツが引っ越してきたら、その地域の「平均資産」は跳ね上がりますが、その地域の個々の住人の生活は、ほとんど変わらないのです。
(現実的には、ビル・ゲイツがハーレムに住む、なんてことはまずありえませんが)
こういう場合は「平均」よりも「中央値」(すべてのデータを数字順にならべたとき、ちょうど半分のところのデータの値)が「平均的な社員のボーナス」を知る上で参考になるのですが、メディアなどでは、よりインパクトがあるデータを提示するために、「大部分の社員には実感できない『平均値』が紹介されています。
本当に大事なのは、その数字の「平均値」だけではなく、全体のバラツキや中央値ということは、けっして少なくないのに。


この本では、こういう「統計のトリック」と「統計に接するときに、気をつけるべきこと」がたくさん紹介されていますので、「統計なんて、よくわからない」という人には、格好の入門書だと思います。
「そんな難しいこと、自分には関係ない」という人もいるかもしれませんが、先ほど御紹介した例のように、「知らないと誤解してしまう統計」は、世間に溢れているのです。

 今までの説明によると、BMI(身長と体重から計算できる、肥満度をあらわす体格指数。BMI 25以上が肥満)と年収の間に何か関係があるように思えます。しかし、譲二が指摘しているように、これは見かけだけの可能性があります。
 この例では、

(a)年齢が上がると、BMIが徐々に大きくなる
(b)年齢が上がると、年収が上がる傾向がある

というように、年齢という、ここには書かれていない変数が、BMIと年収の双方を増やす点が考慮されていませんでした。
 このような例は、他にもたくさんあります。
 たとえば、血圧と年収の関係を調べたら、おそらく「血圧が高いほど年収が上がる」という傾向が見られることでしょう。もうお分かりですね。背後に隠れているのは、この場合も「年齢」です。しかし、このような例でも、「血圧が高い人は精力的だから、その結果、年収も高くなる」というような、一見もっともらしい説明をつけることができます。そのような傾向はもしかすると本当にあるのかもしれませんが、実証するためには、最低でも年齢をそろえて比較する必要があります。
 年齢の他にありがちな落とし穴として、「時間」を挙げることができます。テレビの各家庭への普及率と寿命は、いずれも時代とともに増えました。そこで、データをそもまま散布図にして回帰分析にかければ、「テレビの普及によって寿命が延びた」という結果を出すことができるでしょう。

「統計」に関して全く無知だと、こういう「トラップ」に、いともたやすく引っかかってしまうのです。
「だって、そういう『統計的なデータ』があるんだから」と。
「ソースを出せ」という叫ぶ人は多いけれど、そのソースが「本当に示していること」を分析できる人は非常に少ないし、それが鵜呑みにしてはいけないものだということを認識している人すら、少数派なのです。


もちろん、これを一冊読んだからといって、統計のエキスパートにはなれないけれど、「まず疑ってみること」のきっかけにはなるはず。
とくに後半は、けっして簡単ではないのですが、「統計というものの奥深さと、それを安易に信頼してしまうことの危険性」がわかりやすく書かれている良書だと思います。

アクセスカウンター