学問(learning)

母集団とサンプルの間の関係を忘れるとひどいことになる

たとえば、社内で起こる不具合に関してデータを集めたとしよう。ものづくりで不良が起こった、とか、誰かが会議に遅刻した、とか、ウェブサービスでエラーが見つかった、とか、なんでもいい。こういうデータが目の前にあるとする。

こいつを分析したいとする。記述統計で調理しようか?推測統計で調理しようか?なんとなくかっこよさそうだから、推測統計を使いたくなる。回帰分析でもしたくなる。あ、t値が有意だ。なるほど、こういう因果関係があったのか。

いやいや、この分析はいったい何をしているのだろう?目の前にあるデータは、社内で起こった全てのデータだ。全てのデータがあるのに、いったい推測統計を使うなんて、いったい背後にどんな母集団があると考えているのだろう?「母集団=いま使っているサンプル」なのだから、記述統計すればいいんじゃないか?

日本には都道府県が47しかないのに、都道府県データを使って回帰分析してt値が有意だといって喜んでいるのは、いったい何を分析しているのだろう?人口は1億3千万いるが、全データをとれない。だから、とりあえず3000人分くらいのデータをもってきて、推測統計を使う。これは分かる。というか、そんなときにために推測統計がある。

なんでもかんでも推測統計で調理しようとするのは間違っている。記述統計はsuper elementaryだが、(統計学が疎い人にとっては朗報なことに)それで十分なケースも多々ある。そういうケースで推測統計をつかってあーだこーだ分析するのは、いったいどういう母集団を想定しているのだろうと質問したくなる。手元にあるデータこそが母集団なのに、推測統計つかって「この分析は一致性を持つ」って、なんのギャグですかと思う。

母集団とサンプルの間の関係を忘れるとひどいことになる” への1件のフィードバック

  1. 教科書によっても違うが。
    我々の観測技術には限界があり、観測された値は常に誤差が含まれている(と考えられる)ので推計が必要。
    そのため、母集団=いま使っているサンプルとならないという考え方がありうる。

コメントは受け付けていません。