琥珀色の戯言

3000冊以上の【書評】と500作以上の【映画感想】を、ちゃんと読んで、観て書いてきたブログです。話題になったあの本や映画の感想が、たぶんあります。新書、ノンフィクション、インターネット関連本が多め。

【読書感想】ビッグデータ探偵団 ☆☆☆☆

ビッグデータ探偵団 (講談社現代新書)

ビッグデータ探偵団 (講談社現代新書)


Kindle版もあります。

ビッグデータ探偵団 (講談社現代新書)

ビッグデータ探偵団 (講談社現代新書)

内容(「BOOK」データベースより)
膨大なデータは見えてこそ、意味を持つ。明快にわかるオールカラー図解版!データと人間の発想でわかったニッポンの新事実!


 「ビッグデータに関する本」は、一時期かなりたくさん出ていました。
 コンピュータを使い、これまでの統計とは桁違いの量のデータを解析することによって、予想外の関連性を見いだすことができる。
 「ビッグデータ」という言葉が流行りはじめていた時期には、「ビッグデータ」は、これまでの統計ではできなかったことが、なんでもできるようになる、というイメージすらあったのですが、著者のひとりは、「はじめに」で、こう述べています。

 データの面白さと強力さを伝えて、データに馴染み親しんでもらうことがビッグデータレポートの最善の目標だとするならば、そのうえで、もう一段階踏み込んだ、重要な影の課題がある。それはずばり、どれほど膨大な量のデータがあっても、データそれ自体からは意味を見出しにくいことを、しっかりと理解していただくことだ。
 データとは素材であるに過ぎず、データがその価値や威力を発揮するか否かは、素材をどのように調理するか──データの世界の用語で言うならば、いかに目的を持ったうえで解析、精査、分析、抽出するか──にかかっている。
 その次の段階でもうひとつカギとなるのは、「見える化(可視化)」という問題だ。「データを解析した結果、こんなことが判明した」、と新たな発見を得られたとしよう。その結果を多くの人々に伝えるためには、誰もが、見た瞬間にパッと意味を理解できる表現によって示さなくてはならない。


 ヤフーのビッグデータ分析班によって書かれているので、ネットで多くの人に「見てもらう」ことを想定しており、カラーで見やすい図もたくさん掲載されています。

 大事なのは、どんなに多量のデータがあっても、「それをどう分析し、解釈するか」という「目のつけどころ」みたいなものは、人間の仕事である、ということなのです。
 ビッグデータによって変わったことはたくさんあるけれど、それでも、売れない新製品は出るし、選挙予測は96%も的中するけれど、100%にはなっていません。

 この本を読んでいると、「データをうまく切り分けて解析していると、こんなこともわかるのか」と感心するところがたくさんあるんですよ。

 皆さんは、1週間に何回くらい電車に乗るかを考えてみてほしい。
 電車で通勤・通学をしている人は、少なくとも往復で5日間、計10回くらいは乗っているのではないか。都内に住んでいる方は、まさか10回なんかじゃ済まないぞ、と思った人も多いかもしれない。一方、電車は遠出をするときぐらいで基本はクルマだ、という方ももちろんいるだろう。
 まず、リアルのデータから見ていこう。次のチャートは、ひとりが1年間に電車を利用する回数を横軸、マイカー通勤・通学率を縦軸にとり、47都道府県をマッピングしたものだ。
 このグラフから一目瞭然だろう。東京だけが、他の都道府県と大きく離れて右端に位置し、孤立している。マイカーと比較して、電車比率の度合いが著しく高いのである。
 これは、東京がいかに極端な「電車社会」であるかを示している。神奈川や大阪など、関東・関西の主要府県の人は、東京と同じようなライフスタイルである印象を持つ方も多いかもしれない。だが、実際に赤ちゃんからお年寄りまでの全年齢の平均的な電車利用回数を見てみると、東京の人は年間800回以上(1週間に15回以上!)も電車を利用しているのに対し、神奈川や大阪の人々の電車利用回数は、400回以下と、東京の半分にも満たない。
 その他の残りの大半の数は、クルマがメインの生活だ。電車には年に数十回乗るかどうかという程度であり、東京の10~100分の1に過ぎない。
 電車とクルマの利用度という観点から見るならば、日本の都道府県は、(1)圧倒的な電車社会である東京、(2)電車とクルマを併用する関東・関西の主要7府県、(3)クルマ社会である残りの大半の道県と、3つのグループに大別されることがわかる。
 しかし、やはり(1)と(2)の間の差は大きく、東京の異常性が突出していると言える。


 これは、「『東京』が標準だという発想は、本当に正しいのか?」という検証のひとつとして紹介されているものなのです。
 僕はずっと(3)の地域で生活しているので、自動車免許を持っていない人が東京には多い、というのを聞いて、「それで生活していけるのだろうか?」と疑問だったんですよ。
 こういうデータをみていくと、「日本」というひとつの国のなかにも、さまざまな特徴を持つ地域があって、東京はかなり特殊で、日本の「標準」ではない、ということがわかります。
 それでも、メディアでは「東京=日本」として語られることが多いんですよね。


 イベントなどで、ある地域が混雑する度合いを予想するための手法も紹介されています。

 では、未来の日時の人口推移波形を知るためにはどうすればいいか?
 この問いをより簡単な言葉で言い換えるなら、〇月×日△時に、A地点に行く予定の人がどの程度いるか? ということだ。
 ここが頭の使いどころなのだが、実は、この情報を知るヒントは、みなさんも馴染み深い、ヤフーが運用しているサービスに隠されている。
 それこそが、「Yahoo!乗換案内」(以下、乗換案内)だ。
 少し以外に感じられたかもしれない。「Yahoo!乗換案内」とは、出発地と目的地を入力すると、路線ルートや運賃を調べることができるサービスだ。
 このサービスには、ユーザーが検索した出発地と目的地、および出発(到着)日時のデータがセットとなって蓄積されている。これらのデータこそが、未来の混雑を予測するキーとなる。
 具体的なケースを、一緒に想像しながら見ていこう。
 2週間後、ずっと楽しみにしていた大好きなアーティストAのコンサートに行く予定があるとしよう。会場は武道館だが、訪れるのは数年ぶりだ。何時に自宅を出て、どんなルートで行くのがベストか。
 そんな疑問を抱いたとき、おそらくほとんどの人は、事前に「乗換案内」の機能で交通機関のルートを調べ、何時に家を出るべきか、当日の自分の行動計画をあらかじめ立てておくに違いない。
 重要なことは、事前にルートを調べるそのような人は、あなたひとりだけではない、ということだ。よほど武道館に行き慣れている人を除いて、アーティストAのコンサートに参加する予定の人々の多くが、同様に、事前に武道館までの到着時間を考慮した最適ルートを調べている、と考えられるのだ。
 ここから、少しずつ見えてきたのではないか。「乗換案内」には、現在時刻のルートを検索するデータだけでなく、将来の予定を先読みするデータが大量に蓄積されている。
 つまり、「乗換案内」に蓄積されたデータを分析すれば、「〇月×日△時にA駅に到着したい。と考えて検索している人がどの程度いるのか」を推測することができる。それを平時の検索数と比較することで、混雑の予測が可能になるというわけである。

 
 「検索する」ことによって、われわれの行動は、ヤフーからデータのひとつとして利用されているのです。
 それによって受けるメリットを考えると、「監視社会だ!」とか「個人情報なのに……」と憤るようなことではないのでしょうけど。
 人々の行動のデータが、アンケートやインタビューを行わなくても集められる時代なのです。

 それは、情報の出し方、何を検索させるかによって、人々の行動を制御できる、ということにもつながります。
 だからといって、「Google以前の時代」には、もう戻れない。

 また、リニア中央新幹線の開通後の予想をした章では、「仮想上の交通機関や施設、インフラを『Yahoo!地図』のデータ上で設定し、実在したと想定した場合のシミュレーションができる」ことが紹介されています。
 政治家にとっては「不都合なデータ」にもなりそうですが。


 ビッグデータって面白いな、と、あらためて感じることができる本だと思います。
 ただ、ビックデータの解析結果って、ほとんどの人には「プロセスやデータの妥当性」が理解、検証不能なので、悪意を持って嘘を出されたら怖いですよね……


統計学が最強の学問である

統計学が最強の学問である

FACTFULNESS(ファクトフルネス)10の思い込みを乗り越え、データを基に世界を正しく見る習慣

FACTFULNESS(ファクトフルネス)10の思い込みを乗り越え、データを基に世界を正しく見る習慣

本物のデータ分析力が身に付く本

本物のデータ分析力が身に付く本

アクセスカウンター