データサイエンスの説明責任

そらかぜ

なんでそんな結果になるの?

統計を駆使して、データを分析するデータサイエンスですが、分析結果を報告しても、「だから何?」、となりがちです。

これは、株価算定にも似ているところがあります。精緻な理論を駆使して結果を出すと、あまりに複雑すぎて、ブラックボックス化し、直感的な把握を難しくしています。

なぜその結果になったのかが、説明された方は簡単には理解できない。そして、説明する方も簡潔に説明できない。

「では、まず理論から説明しましょうか」、と説明を始めようと難しい数式の話をしようものなら、「ああ、もういい」となってしまいます。

これが納得感が得られない原因となり、なんだか小難しい話でうまく誤魔化されているのではないか、という不信感を抱かせる結果となっています。

しかし、これではせっかく分析した結果が活用できず、時間と費用が無駄になってしまいます。

分析する側も、データ分析のスペシャリストだがビジネスの実態をよく理解しておらず、分析して終わり、説明する努力が足りない、ということがあるように感じます。理解していたけなければ意味がありませんので、分析する側の努力も必要です。

それだけではなく、利用する側も丸投げするのではなく、どのような流れで分析がなされるのか知識として知っておくことが必要ではないかと思います。分析結果に騙されないためにも必要なことだと思います。

目次

知りたいのはそこじゃない

そらかぜ

知りたいのは、そこじゃないんだよね。

気象予報を見ていると、「なぜこうなったのか」という問いに対して、理由になっていない答えを返しているのがほとんどです。

例えば、アメリカでマイナス50℃になった理由は、という問いに対して、極渦が分裂したためだ、という解説がなされます。それは、原因ではなく、単なる現象を伝えているにすぎません。北極の冷たい空気が上空を覆えば寒くなるのは当然だと思います。

問題は、なぜ極渦が分離したのか、ということなのですが、それはおそらくわからないのだと思います。なので、起きた結果を別の表現でお茶を濁すしかないのだと思います。

ほんの数時間後に、大雪になるのかどうかもわからない。台風の進路もわからない。

気象現象は、上海で蝶々が羽ばたくとアメリカで竜巻が起きるほどの複雑系でもあり、まだまだ予測は難しい分野です。

これは株価や為替も同じですね。株価や為替の方がさらにひどいとも言えます。同じ現象が起きているのに、まったく逆の説明がなされるということすらあります。

データサイエンスでは、相関関係は簡単にわかるが、因果関係の把握は難しい

AI、データ分析の世界では、相関関係の把握についてはできても、因果関係の把握は苦手です。特に時系列データは、時間軸を持つデータなので、因果関係が絡んでくるため、一筋縄ではいきません。

もっとも、人間ですら相関関係と因果関係を明確に区別できるか、というと、そうでもないと思います。

朝、家を出て、10歩ほどすぐの曲がり角で車にひかれた人がいたとします。その人は、車にひかれたのは、「家を出るときに左足から出たからだ」と考えたとします。

普段は右足から家を出るのに、その日に限って左足から出たことを思い出しました。普通に考えると、左足から出たことと車にひかれたことに因果関係があるとは思えません。

しかし、これは多くの人がしていることでもあります。ジンクスや、いろいろなまじないなどです。

合格祈願に神社に行くのもそうでしょう。試験直前に見た問題が試験当日に出た、これは神社に行ったからだ、と考えたとしても、合理的に考えれば、神社に行くことと受験に合格することには直接の因果関係はありません。

あの時にあれをしていれば、あるいはあんなことをしなければ、と結びつけて考えやすいですが、それは単なる勘違い、実は関係ないことが非常に多いです。

このように、人間は一見関係のない出来事を、関係があるように見てしまう傾向があります。

もっとも、左足から家を出たから車にひかれた、というもっともらしい理屈をつけることもあると思います。

右足から出た場合、曲がり角まで10歩ですが、左足から出た場合、曲がり角まで9歩で、その一歩の差でひかれてしまったという理屈をつける人がいるかもしれません。しかし、家を出る時間が多少ずれていたらこれは成り立ちません。毎日、1秒も違わず家を出る、ということは普通はありません。

あるいは、普段は右足から出るのに、その日は考え事をしていて、ぼーっとしていたのかもしれません。でも、この場合は、ぼーっとしていて注意散漫だったから車にぶつかったとも言えます。

かつて、あるアメリカのアナリストが、株価といろいろな指標の関係を調べた結果、ある田舎町のバターの消費量との相関関係が高いというレポートを出したという話を聞いたことがあります。「風が吹けば桶屋が儲かる」よりさらに低い関係のように思われますが、超エリートですらこのようなレポートを出してしまいます。

その田舎町でバターがたくさん食べられたのなら株価が上昇し、食べるのをやめた途端に株価が下がる、まるでコントのようです。

相関関係の数値は、計算式に入れさえすれば答えが出てきますので、例えば、株価とゾウの1日の歩く距離の相関係数も当然出せます。しかし、その相関係数には何の意味もないことは直感的にわかると思います。

システムトレードをやっていると、何でも数字で出てきてしまうので、相関係数が高い、イコール関係が深い、と短絡的に考えがちです。

その数字には何の意味もないのに、意味があると勘違いしてしまう。これは企業の意思決定でもしばしば見られますが、数字を正しく見る力がないととんでもない損失を招くことになりかねません。

目次