統計とデータマイニング

twitter上でALBERTの上村さんが以下のようにつぶやいていました。

統計は「要約の手法」であるのに対して、データマイニングは「知識発見の手法」。「BigData」というキーワードに相応しいのは後者。要約からは新しいものは生まれない。

これは、私個人としては、違和感を感じる表現でした。
(もちろん140文字という制限に集約されているつぶやきですので、上村さんの意図するところを私が汲み取れていない部分も大きいと思います。)


まず『統計は「要約の手法」で新しいものは生まれない』という点。


ここでさしている「統計」がどこまでの領域なのかは定かではありませんが、要約統計量や多変量解析といったところじゃないでしょうか?

確かに、これらのパラメータ推定自体は要約といえるでしょう。
が、その点は要約統計量や多変量解析を用いた分析の本質ではありません。

これらの手法の本質は、「仮説検証」にあると思います。
分析者が仮説を有していて、それに対して検証を行う。
「仮説検証」に新規性があり、それがデータから実証された場合、それは「新しいものを生み出す」ことにならないでしょうか?


また、データマイニング「だからこそ」、新しい知識が発見されるような印象に思える表現がありますが、これにも違和感があります。


マイニングに携わったことがある人ならばお分かりなると思いますが、
特定のアルゴリズムをデータ適用して分析したところで知見が生まれるわけではありません。
実際には、様々な仮説検証を繰り返しながら、データを「掘っていく」イメージになると思います。
(その後、多くは「自動化」することになるのでしょう。)


この点において、「統計」であっても「データマイニング」であっても本質は大して変わらないと思います。
(ただし、検定論が大規模データの前で無力なことは事実です。)


共通して重要なのは分析者の仮説設定能力、検証構成能力でしょう。
それは、データ解析全般を通して重要なスキルといえますね。

・・・。もっと頑張んないとな・・・。


今日はここまで。