琥珀色の戯言

【読書感想】と【映画感想】のブログです。

【読書感想】誰もが嘘をついている~ビッグデータ分析が暴く人間のヤバい本性~ ☆☆☆☆☆

誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性

誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性


Kindle版もあります。

誰もが嘘をついている?ビッグデータ分析が暴く人間のヤバい本性?

誰もが嘘をついている?ビッグデータ分析が暴く人間のヤバい本性?

内容(「BOOK」データベースより)
グーグルの元データサイエンティストが、膨大な検索データを分析して米国の隠れた人種差別を暴くのを皮切りに、世界の男女の性的な悩みや願望から、名門校入学の効果、景気と児童虐待の関係まで、豊富な事例で人間と社会の真の姿を明かしていく。ビッグデータとは何なのか、どこにあるのか、それで何ができるのかをわかりやすく解説する一方、データ分析にまつわる罠、乱用の危険や倫理的問題にも触れる。ビッグデータ分析による社会学を「本当の科学」にする一冊!


通説や直感に反する事例が満載
・黒人への差別表現はグーグルで「頭痛」「経済学者」と同程度検索されている。
・失業者は検索サイトで「職業安定所」や「新しい仕事」よりも、ポルノサイトを探している。
・男女ともにセックス回数を過剰に自己申告するが、結婚生活最大の悩みは「セックスレス」。
・インドやバングラデシュの男性が、ポルノサイトでとりわけ多く検索する言葉は「授乳」。
ジョークが検索されるのは世間が悲しいムードのときではなく、うまくいっているとき。月曜や曇天・雨天には検索頻度は低く、週末は高くなる。
・名門校にギリギリで合格した人とギリギリで落ちた人の人生にはどのような違いがあるか。
・オンラインのP2P借金サイトでコメントを書かせると、借金を返す人と返さない人は言葉遣いに差がある。踏み倒す人は特定の単語を使う傾向にある

 こちらは「周囲に人がいないのを確認して、パソコンでこっそり検索している」つもりなのに、ここまで自分のことを「知られている」のか……
 この本を読みながら、そんなことを考えていました。
 著者はグーグルの元データサイエンティストなのですが、われわれが日々検索していることは、こんなにビッグデータとして活かされているんですね。
 調べているつもりで、実際は「調べられている」。
 もちろん、個人情報が出ない形でまとめられており、著者も「グーグルはあらゆる特定人物の検索歴も提供していない」と言及していますが。

 そしてグーグル検索は、さまざまなサーベイが示したポスト人種差別の理想郷とは大違いの米国像を明かしている。私が初めてグーグル・トレンドで「ニガー(nigger)」と調べたときのこと。これほど醜悪な言葉などあまり検索されることもないだろうと思っていた(世間知らずと言われても仕方がない)が、見当外れもいいところだった。米国では「ニガー」という単語は、「偏頭痛(migraine[s])」とか「エコノミスト」、「レイカーズ」などとほぼ同じ回数検索されていた。


(中略)


 こうした検索は、年に数百万回も行われている。米国人の多くは、私的な自宅空間では、衝撃的なほど人種差別的な語句を検索している。研究すればするほど、こうした不穏な情報は増えていった。

 グーグル検索の分析からは、人種差別が色濃い場所についての通年が誤っているサーベイや一般通念では、人種差別の本場は南部、それも共和党員によるとされる。だが人種差別的な検索の多発地帯には、ニューヨーク州北部、ペンシルバニア州西部、オハイオ州東部、ミシガンの工業地帯やイリノイの農村地帯、さらにはウエスバージニア州ルイジアナ州南部、ミシシッピ州などが含まれている。だがミシシッピ州でも西部では、こうした傾向はあまり見られない。グーグルの検索データが示唆するところによると、真の分裂は、南対北ではなく東対西なのである。
 また、人種差別主義は共和党員に限ったことでもない。実際、人種差別的検索は、共和党優勢地域のほうが民主党優勢地域よりも多いとは限らない。言い換えれば、グーグル検索は、米国の人種差別地図を塗り替える一助になる。そしてその地図は、一般通念とは程遠い。南部の共和党員は人種差別をより自認しやすいのかもしれない。だが北部の民主党員の多くも、同じほど偏見を示しているのだ。
 そして4年後、この地図はトランプの政治的成功を説明するうえで、非常に重要であることを立証した。
 2012年、私はこのグーグル検索を通じて得た人種差別地図を使って、オバマが黒人であったことの真の影響を検証した。データ明白に示していた。人種差別的検索の多い地域でのオバマの得票率は、彼の前の民主党大統選挙戦候補者として立ったジョン・ケリーの得票率よりもはるかに低かった。当該地域におけるこの関係は、学歴、年齢、教会活動への参加、銃所有率など他のどんな要因でも説明できなかった。そして高い人種差別的検索率は、他のどの民主党大統領選候補の劣勢ぶりの説明にもならなかった。オバマだけに当てはまることだったのだ。
 そしてこの結果からは、実際に大きな影響があったことがうかがえる。オバマは全米で、あからさまな人種差別によってざっと4%の票を失っていたのだ。これは他のどんなサーベイから予想されるよりも、はるかに大きな度合いだった。


 この本のなかで、著者は、このような「人々が持っているイメージが、グーグルの検索データによって覆される事例」をたくさん紹介しているのです。
 人は、パソコンの前では、つい、「本音」というか、「本当に求めているもの」を探してしまう。
 気軽な気持ちで、「人に知られたくないようなこと」を興味本位で検索してしまう例も少なからずあるのでしょうけど、少なくとも、この人種差別に関する検索ワードに関しては、現実の差別意識を反映していて、それは、既存の地域性とは異なるものだったのです。

 グーグルのオートコンプリート機能にも正直さは垣間見られる。これは他の人々がその話題について実施した検索をもとに表示されるから、他の人がよく行っている検索の手がかりが得られる。だがこの機能でさえ正確ではない。グーグルでは猥語や卑語など、彼らが不適切と考える言葉をオート表示しないようにしている。そのためグーグルのオートコンプリート表示は、人々の人種差別的傾向について実際よりも控えめに表示していることになるが、それでも、時にはいくらか微妙な結果が表示される。
 たとえば「どうして……」から始まるフレーズ検索のトップ2件は「空は青いの?」と「うるう日はあるの?」だ。だが3番目は「私のウンチは緑色なの?」である。またグーグルのオートコンプリートが不穏な様相を帯びることもある
「……したいと思うことは正常?」というフレーズ検索の目下のトップ候補表示は「人を殺したいと思うことは」である。さらに「……を殺したいと思うことは正常?」のトップは「家族を」である。
 グーグル検索から非日常的な姿が浮かび上がる例は枚挙にいとまがない。たとえば子供を持つべきか持たざるべきかについての後悔をめぐる検索だ。中にはこの判断をめぐって不安を覚える人もいる。そして問いかけはほぼ常に、「子供を持たないと後悔するだろうか」、というものだ。子供を持てば後悔するかと聞くよりも、持たないと後悔するかと聞くほうが7倍も多いのである。
 そして実際に判断を下した(それが子供を持つという判断であれ持たないという判断であれ)後も、人々は時に、グーグルにその決断を悔いていることを告白する。ショックかもしれないが、これは決断前と逆転する。子供がいる成人は、いない成人よりも、3.6倍も多くその決断を悔いているとグーグルに真情を吐露している。


 これだけ多く検索されているということは、「家族を殺したい」というのは、正しいかどうかはさておき、「多くの人がもっている感情」であり、「そんなに異常ではない」とも言えそうです。実行してしまうのは問題だとしても、思うだけなら。
 子供に関しては、日本だったら、どんな結果が出るのでしょうか。
 現状では、アメリカよりは「子供がいること」に肯定的な結果が出そうな気がするのですが、それもまた「思い込み」なのかもしれません。


 この本では、グーグルの検索ワード以外でも、さまざまなビッグデータを検証して得られた結果が紹介されています。
 競馬ファンとしては、三冠馬アメリカンファラオが見出された経緯についての話は、大変興味深いものでした。
 
 
 アメリカの公立校ランキング首位のスタイベサント高校についてのこんな調査結果も紹介されています。

 では、スタイベサント高校の回帰不連続分析の結果はどうだったか? この研究を担ったのはMITとデューク大学の研究者ら――アティラ・アブドゥルカディログル、ジョシュア・アングリスト、パラグ・パサック――である。彼らは合否線ぎりぎりの学生たちのその後を調べた。イルマズのようにあと1問か2問でその後を調べた。イルマズのようにあと1問か2問で合格を逃した学生たちと、合否線を1、2問で上回って首尾よく合格した人々のその後を大規模に比較したのである。成功の基準はAP成績、SAT得点、そしてやがて進学した大学のランキングとした。
 その結果の衝撃は、彼らの論文の題名――『エリート幻想』――が雄弁に物語っている。スタイ高入りした影響? まったくのゼロた。合否線のわずかな上下に位置した人々は、同等のAP成績やSAT得点を上げて同等の大学に進学していた。
 スタイ校出身者が他の高校の出身者よりも栄達する理由はただ一つ、もともと優秀な人間を採っているから、というのが研究の結論だった。同校の生徒がAPやSATの成績が良いにしても、果てはより良い大学に進学しても、それはスタイ校での教育を原因とする結果ではない。
「激烈な入試は、生徒層全般の高い学習効果の説明にはならない」と論文は記している。


 少なくとも、高校入試の段階では、本人の成績が同じくらいであれば、どこの高校に入学するかというのは、大きな問題ではない、ということみたいなんですよ、意外なことに。
 もちろん、明らかに教育レベルが劣るような学校に行けば話は別かもしれませんが、少し偏差値ランキングが下がるくらいであれば(現実的には、スタイ校に受からなかった学生たちは、そのすぐ下の偏差値の学校に行くはずです)、3年後に有意差は出ないのです。
 こういうことを知っておけば、高校入試で目標の学校に入ることは大事だけれども、自分自身がレベルアップしていければ、志望校に受からなかったからといって、悲観することはない、ということもわかります。
 まあ、だから大丈夫だよ、と言われても、あんまり慰められないかもしれないけれど。

 
 著者は、ビッグデータの解析による「革命」について、こんなふうに述べています。

 誰に聞いても物理学者、生物学者、そして化学者こそが本物の科学者だというものだ。彼らは厳密な実験を通じて物理的世界の働きを見出す。対照的に、経済学者、社会学者、心理学者らは空疎な専門用語を振りかざして大学の終身在職権をあさる脆弱な科学者に過ぎないと考える人は多い。
 そんなこれまでの真実を、ビッグデータ革命は一変してしまった。もしカール・ポパーが今日なお存命で、ラジ・チェッティ、ジャセ・シャピロ、エスター・ダフロ、そして不肖、私(なんちゃって)などの発表に接する機会があれば、当時と同じ印象は抱かないはずだ。実のところ、ポパーは今日の難解なひも理論などのほうについて、それは真の科学なのか、それとも独りよがりな精神鍛錬ごっこなのかと疑問を巡らせたのではないか。
 暴力映画が封切られたら街の犯罪は増えるのか減るのか? 多くの人が広告を見るほど、その製品が売れるのか? 20歳の頃に地元バスケ・チームが優勝する経験をしたら、40歳の頃にそうなる場合に比べて、バスケ好きが定着しやすいのか? これらはいずれも明確な疑問であり、明確な解答がある。そして正直なデータがたくさんあれば、その解を得ることができる。
 これは偽科学ではない正真正銘の科学だ。


 著者は、インターネットやグーグル検索のビッグデータを利用することによって、これまで、多大な手間と時間がかかっていた比較対照実験を、ずっと少ないコストで行うことができるようになった、とも指摘しています。

 これまで「科学」としてはあまりにも曖昧な部分が多く、個々の研究者の主観や裁量に左右されていた文系の学問でも、客観的な評価ができるようになってきているのです。
 それでも、現状は、なかなか人間の行動を完璧に予測する、というわけには、いかないみたいなんですが。


 この本のなかには、「下ネタ」方面もけっこう含まれているので、読む人を選ぶところはありますが、人はパソコンの前では正直になる、というのは、僕にも身に覚えがあるんですよね。
 ただ、こうして本になると、これからは、みんな「何を検索するのかにも、気を遣う」ようになってしまうのではないか、とも思うのですけど。


データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

アクセスカウンター