琥珀色の戯言

【読書感想】と【映画感想】のブログです。

【読書感想】データ分析読解の技術 ☆☆☆☆


Kindle版もあります。

「データ分析ブーム」がもたらしたのは、怪しい“分析らしきもの”と、それに基づいた誤解や偏見……。本書では、「問題」「解説」を通して、データ分析の失敗例を紹介しながら、データを正しく読み解くための実践的な視点や方法、また、思考に役立つ基礎的な知識やコツを紹介していく。誤った分析をしないため、騙されないための、基本的・実践的な読解と思考の方法とは――。


 コンピュータの進化にともなって、これまでと桁違いの分量の「ビッグデータ」を解析することが可能になりました。
 とはいえ、世界あるいは日本の人全員の「本当の意見」を集めて解析する、というのは、現時点では難しいと言わざるをえません。
 
 僕も日々いろんな人と仕事をしているのですが、分析の対象者が「人間」であるかぎり、本当のことを言っているとは限らないし、自分自身の感情さえ、わからなくなりますし。
 マスメディアのインタビューだと、よそ行きの言葉で答えてしまうほうが、むしろ「普通」ではないでしょうか。

 ネットでは、他者の発言に対して、「データ(ソース)を出せ!」と反発する人が大勢いるのですが、正直、「この人たちは、出されたデータやソース(情報源)が真っ当なものかどうか、ちゃんと解析できる能力があるのだろうか?」とも思うのです。

 僕自身、研究をやっていたときに「データを分析することの難しさ」と「有意であることを証明することのハードルの高さ」を思い知らされましたし、「統計学」には、かなり悩まされたのです。

 世の中には、「自分の知り合いの2人に1人副作用が出たから、これは50%の副作用が出る薬だ!」という書き込みをするや、「個人の感想です、という健康食品の体験談」に引きずられる人も多いのです。

 新型コロナワクチンに対する世間の反応をみても、世の中の大概のものにはメリットとデメリットがあるにもかかわらず、人は自分にとって都合の良いほうだけを見てしまいがちで、「全体を俯瞰する」のは難しい。


 この新書は、「データの分析のしかた」の入門編というよりは、その一歩前の「間違ったデータ分析を見抜くための基礎知識と考え方」を知ってもらうことが主になっています。
 前述の「データ(ソース)を出せ!」と言う人の多くは、「データ(らしきもの)があれば、あっさり信じる人」になりやすいのです。

 筆者の考えでは、世に流通するデータ分析の良し悪しを判断する力を鍛えるためには、統計学の高度な知識はそれほど重要ではありません。そうした知識があればあるほど良いことは確かです。しかし、われわれが目撃するデータ分析の失敗の多くは、もっと初歩的なところで間違えています。データ分析を行う側や読む側が、これに気が付けるようになれば、不幸な現状は改善されるはずです。
 データ分析の能力は、高度な統計学や数学の知識、ソフトウェアの使い方などと強く関連していると思われているかもしれません。しかし、データ分析を行う上で最も大切で基本的なことは、分析しようとしている対象、現象、あるいはデータそのものに関する理解です。


 この話の前に、著者は、2020年1月の安倍首相の国会での施政方針演説のなかで、「島根県江津市が若者の起業を積極的に促した結果、ついに、一昨年、転入が転出を上回り、人口の社会増が実現した」と述べていたことについて、この本の冒頭で検証しています。

 しかし調べてみると、若者の起業が江津市の社会増をもたらしたと主張できる根拠は見つかりませんでした。データを確認すると、2018年に江津市が社会増となったことは確かでしたが、若者の起業ではなくスポーツ国内留学の高校生の流入がその理由と推測されました(気になる方はネットで筆者の記事を検索してください)。
 国会での演説は、首相がその場の思い付きでしゃべるものではありません。政策の効果を謳うのであれば官僚が大なり小なり原稿作成に関わっているはずです。したがって首相演説の例は、中央省庁の官僚のような政策の専門家でさえ、まともにデータを扱えていない可能性を示すものです。もちろん、嘘とわかっていて演説で触れたのであれば、官僚や首相のブレーンが聴衆を騙せると考えているという点でやはり問題です。


 はたして、「官僚はデータの分析が本当にできていなかった」のか、それとも、「あえて、自分たちの都合の良い部分を切り取ったり、不都合なところをスルーしたりした」のか?

 どちらも考えられる話ではあるのです。
 そして、「検証」する側のマスコミも、記者やそのメディアにとって都合の良い「解釈」をすることは少なくないし、それは、「ネット上でデータ解析の間違いを検証しているようにみえる人」にも言えるんですよね。

 ほとんどの人が、「データは大事」だと思っているけれど、データを自分で分析できるほど、統計学に詳しいわけではないのです。
 
 ただ、この新書を読むと、「データを提示されたときには、こんなふうに『疑うべきポイント』を意識しておくといいのか」ということはわかってきます。
 それだけでも、かなり「相手の思惑に載せられにくくなる」はず。

 「なるべく簡単には書いてあるけど、もとは東大とか慶應大の学生に講義していた内容ということもあって、けっして『読みやすくて簡単』ではないな」とも思うのですけど。
 ただ、「読みやすい」「わかりやすい」がゆえに素直に受け入れてしまう、騙されてしまう、ということも多いし、僕自身の経験上、人を騙そうとする人は「ものすごくフレンドリーでわかりやすい話をする」か、「厳格で理解不能の言葉で圧力をかけてくる」かの両極端ではあるんですよね。

 先に述べたように、「移住者」増が報告されているのは秋田県に限りません。不自然な定義の「移住者」増の報告が同時多発的に全国で発生しはじめたのは、「地方創生」が当時の安倍政権によって重要なスローガンとして喧伝される前後からです。
 おそらく筆者が初めて目撃したのは、2014年にある学者が論壇誌に寄稿した記事の中ででした。この記事では、「地方創生」の話題化を主導した増田寛也らのデータや議論に対し、鳥取県への「移住者」が東日本大震災以降増加しているとする数字を提示していました。ここで、この例についても確認しておきたいと思います。
 鳥取県の「移住者」の数は、同県元気づくり総本部元気づくり推進局とっとり暮らし支援課(交流人口拡大本部ふるさと人口政策課に改組)が発表しているものです。県の報道資料等にはその定義が全く掲載されておらず、多くの新聞記事も「移住者」の増加を報告するのみで定義には触れていません。
 鳥取県の「移住者」の定義は、内閣設置のまち・ひと・しごと創生本部の資料によれば、「移住相談窓口で受け付けた相談者等のうち、実際に移住した数(転勤者、学生、一時的帰省を除く)」とされています。やはり鳥取県の「移住者」数も、一般的な公的統計を基にしたものではなく、移住相談会などのイベント、各自治体や在京・在版の窓口を通じて接触した「相談者」に限定した数字なのです。
 この「相談」は、先の秋田県の「登録」同様に、県や市町村による各種補助の入り口となっています。補助メニューは様々ありますが、国からの予算が豊富となったのは「地方創生」以降ですので、相談を経た移住者も2014年、15年以降急増したのではと予想されます。
 表1には、鳥取県の定義での「移住者」数と公的統計における転出者数を整理しています。これを見ると、鳥取県への転入者数はこの11年間1万人強で安定しているのに対して、鳥取県の「移住者」数は2013年から15年にかけて激増していることがわかります。ここから、「地方創生」の諸施策が鳥取県定義の「移住者」数の急増をもたらしさと推察することができます。

 この表1からは、鳥取県定義の「移住者」数の変動と実際の転入者数の変動がほぼ無関係であることもわかります。表の期間中、「移住者」は年々増加しているのに対して、転入者数は横ばい、もしくは減少傾向と表現できます。ここから、相談とこれに連なる「地方創生」に関わる各種移住支援制度等は、新たな転入者の獲得に繋がっていなかったのではと強く疑うことができます。


 こんなふうに自分たちに都合のよい定義の「移住者」という言葉を濫用して良いのだろうか?と思う一方で、いち社会人としては、「結果が出ている(ように)アピールしないと、予算を使っている地方自治体や担当者としては困ったことになるのだろうな」と想像もしてしまうのです。

 データとその分析を受け取る側は、こういう「送り手の立場や事情」も考えておいたほうがよさそうです。
 いまの世の中、すべてが広告につながっている、とも言えます。
 そのことにいくら憤っても、急に世界が変わることはないでしょう。
 そうであるならば、そういう世界であること前提で、やっていくしかありません。

 一般に流通するデータ分析では、対象となる現象やデータに関する考察が甘いことにより失敗していることがよくあります。第1章で「物事を細かく分けて、その間の関係を明らかにすること」を分析と定義しましたが、この関係を的確に捉えていないと、分析は自ずと失敗するのです。不注意な分析者が犯すこのような過ちは、高度な統計学や分析手法の知識がなくとも見抜くことができます。
 その攻略の基本パターンとなるのが交絡(こうらく)因子です。相手が何らかのデータ分析を行い、その結果得られたデータ間の相関関係を根拠として主張していたとしても、交絡因子と呼ばれる強い自説を提示すれば、自分でデータ分析を提示しなくても効果的に相手の主張を崩すことができます。
 難しそうな概念に聞こえますが、この交絡因子は結果と要因の間に割って入ってきて、三角関係を作る側の要因に過ぎません。丁寧に因果関係を考察することができるなら、交絡因子を発見することは難しくないのです。


 正直、「なるべくわかりやすく書こうとしているのは伝わってくるけれど、けっして『簡単』ではないなあ」と悪戦苦闘しつつ読みました。
 僕自身は、完璧に理解できたとは言えないのだけれど、少なくとも「データを妄信しない姿勢」は身につく本だと思います。



fujipon.hatenablog.com
fujipon.hatenadiary.com

アクセスカウンター