データ解析、基本の「き」は何か?

今日はデータ解析を行う上で何が最も基本的でかつ重要なのかについて考察してみたいと思います。


重要なことなんて、まぁ山ほどあるわけです。
でも、その中でも「データハンドリングを始める前」にすることがとても重要であると思います。


まずは、データの性質を理解すること。
どうやってとられたデータなのか、量的変数なのか質的変数なのか、欠損値はどの程度あるのか、どのような分布をしているのか etc.
ローデータが抽出された経緯を理解し、分布を確認することがまず重要ですね。


さらに、「仮説を作り、それを検証するデータフォーマットを具体的に記述すること」。
私の中ではこれが最も重要なように思います。


ごく稀にですが、データハンドリングに夢中になって、結局、自分が何の分析をしたい/すべきだかわからなくなってしまうケースがあります。
完全に迷子状態ですねw
でも、笑い事ではなくて、データ解析の方略に慣れていない場合は陥ってしまいがちです。(私も過去から何度も痛い経験をしています。)


ですので、仮説→検証型でしっかりと分析プランをつくることが有効です。
その際、最も重要なのは「データフォーマットの設計図」をしっかりつくることだと思います。


オブザベーション(行)に何をもってくるのか?(人or商品or人×商品or・・・)
列に何をもってくるのか?
どの列を機軸にして、どの列との関係を示すことが仮説→検証の際の根拠となりうるのか。


こういったデータフォーマットの記述とそのデータの分析プランを事前に作ること。
慣れてくると当然なのですが、これが私が最もデータ解析の基本と思うことです。


もちろん、フォーマット・プランは適宜ブラッシュアップしていきます。
仮説検証の過程の中でぐるぐると変わっていきます。
そうして、そのデータ解析が本来目的としていた解に近づくのだと思います。


今日はここまで。