データ解析をしてみる(事前知識編)|一般化可能性理論って?

さて、本日から数回にわたり一般化可能性理論に基づいたデータ分析を紹介したいと思います。


今回、ひとまず分析の目的を「M−1はどの程度、信頼のできる評価がなされているのかを知る」こととしましょう。


こういったケースではいくつもアプローチが考えられると思いますが、今回は一般化可能性理論に基づいた評価をしたいと思います。


今日は具体的な評価を行う前に、一般化可能性理論の概略をお話したいと思います。
(説明の簡単のために&理解が精緻でないために、表現に不適切な部分があるやもしれません。
こっそりご指摘ください)


テスト理論(古典的テスト理論)の考え方で「信頼性(reliability)」という概念があります。
ある尺度を測定するときに安定・一貫して測定できているかを計る概念です。
(安定・一貫の詳細についてはココなどをご覧ください)


これに照らせば、今回の分析の目的は「M−1における評価の信頼性を評価すること」と言えるでしょう。


さて、信頼性を表現するためには「信頼性係数」という指標を構成し、測定の信頼性を評価します。
信頼性係数の表現にはいくつかあるのですが、基本的な考え方は以下の通りです。

全分散=真値の分散/(真値の分散+誤差の分散)


この値は0〜1の間に収まります。


なんかいきなり分散とか出てきちゃいました。
すみません。


測定したいもののバラツキが、誤差のバラツキと比べてどれくらい大きいかで評価をしよう、というマインドを表していると理解しておいてください。


この信頼性の測定を「分散分析」を利用して行おうというのが「一般化可能性理論」です*1
一般化可能性理論では分散を推定し、信頼性を計算するという2ステップをとります。

分散の推定過程を「G研究」、信頼性の計算過程を「D研究」といいます。
特に「D研究」では色々な評価状況(デザイン)における信頼性を計算することができるので、便利です。


豊田(1994)*2によれば、全国規模の数学の学力試験の信頼性は0.85〜0.9の間くらいとされています。


ごたごたと難しいことを述べましたが、以上のような過程で信頼性の指標を構成し、「M−1グランプリ2010」のを評価してみようと思います。


分析には「M−1グランプリ2010」のデータ*3を用いたいと思います。


今日はここまで。