データ解析(統計)の危うさ(人工無能その5)

KASAです

AIの代表分野の1つとされる「推論」はデータを解析し、その相関関係から導きます。

しかし一見矛盾なく見える推論にも問題があることがあります。

「カルシウムが不足するとイライラする」という話が一時期盛り上がりました。

これもちゃんと統計データを解析し得られたものでした。

ただし、ここにはいろんな問題が含まれていました。

実はほかの要素も連動していたのです。

 

 

たとえば「イライラ」を自覚している人には「睡眠不足」の人が多いなど

他にも推論結果を正しいとするには問題となりそうなことがいくつかあったようです。

確かに相関関係が存在しても、「それが要因であるとするには幅広い検証を行う必要がある」ということです。

逆にこれを利用してデータの一部の相関関係だけを強調してあたかも「これで効果が出ます!」

みたいな広告をしているCMなども結構見かけますね。

ある医師が病気「A」の原因を探っていました。

要因「B」は病気「A」の人以外には見つかりませんでしたが、その要因を持たない人も多くいました。

要因「C」は病気「A」のかなりの人に見つかりましたが、病気「A」以外でもその要因を持つ人もいました。

ある日医師は遂にに病気「A」の人が必ず持っている要因「Z」を発見します。

その「Z」とは「血液が流れている」というものでした。

これはバカげた例え話ですが、意外と似たような間違いにハマってしまうものです。

「統計でウソをつく法」というちょっと古い本があります。

この本を見ると統計の危うさが少しわかると思います。

難しい式などがなく誰でも読めると思いますので、統計に興味が出た方はどうぞ

2020年度 学問への扉 「疑似科学を科学する」調査報告書集

http://www.biken.osaka-u.ac.jp/education/machikanezemi/pdf/report2020.pdf

にはカルシウムの話も出ています。