学問(learning)

データはどれくらいあったら十分か

「標本サイズ二桁くらいでGMMはやっちゃいけないのかなって気がする。」と書いたけど、small sampleって、どれくらいのことなのだろう。how small is small?ま、これよりもっと重要なのは、how large is large?という問いなのだけれど。

最近の計量経済学の流れでは、漸近理論を最重視して、推定量に一致性と漸近効率性があればとりあえず良し、という感じで、finite sample property(小標本理論、small sample property)なんか知ったことかという風潮が強い。GMMだGELだといってみたところで、ごちゃごちゃと数式展開してくけど最後には結局、大数の法則と中心極限定理に帰着させて、ハイ証明終わり、ってなる。けっこうその計算自体が楽しかったりするんだけどね。逆行列が登場してきて、ごちゃごちゃしてた部分がけっこうすっきりしたりして。テトリスみたい。あ、テトリスというか、ぷよぷよに近いかも。

では、どれだけのサンプルサイズがあれば漸近理論(大標本理論、large sample theory)を適用してもいいのだろう。という問いになると、途端にみんなお茶を濁す。これはけっこう名の通った計量経済学者でも同じ。

この問いに答えるには、母集団と標本サイズの、相対的な関係を想像するしかないのだと思う。例えば時系列データを使うとしよう。一言に時系列データといっても、frequency(頻度。月次?四半期?半年?年間?)によって、考えるべき母集団は違うと思うのだけれど、まぁ、それはおいておこう。時系列データをつかって、推定量に一致性があります、って一体、何を言っているのだろう?-∞の過去から、+∞の未来まで、データが無限にとれるとしたとき、推定量が真のパラメータ値に確率収束するのです、ということだよね。でも、それって、やっぱり変だと感じる。だって、分析対象は生身の人間の行動なのであって、惑星の運行法則を調べようとしているわけじゃない。-∞の過去から、+∞の未来まで、惑星の運行法則が変わらないだろうな、というのは、納得がいく。でも、生身の人間の場合、行動はきっと変わるでしょう?僕自身、去年と今年で、行動は変わっていると思うし、それが成長ってものだと思う。そもそも我々は無限に生きない。「おまえ自分の論文でGMM推定してんじゃん」って突っ込まれたら、「代表的個人は永久に不滅で死なないのです」という苦しい言い訳しか思いつかない。でも、やっぱりこの言い訳、苦しいなぁ。「赤信号、みんなでわたれば怖くない」というのが正直な心境。

こざかしい言い方をすれば、人間の効用関数の形状は、変わる。変わらないと仮定しているほうが不自然。

あぁ、俺は何が言いたいんだろう?きっと、how large is largeを真剣に考えていない人が気軽に実証分析すると、本人に悪意があろうがなかろうがミスリーディングな分析結果を導いてしまう恐れがあるね、ってことかな。

あぁ、それと、いくら経済学が物理学や天文学などのマネをしようと実証科学の装いを見せたところで、上記にあるように、分析対象が惑星の運行法則ではなく、生身の人間のbehaviorである限り、無理があるよね、ってことかな。