『ウェブ進化論』の読書感想

印象に残ったキーワードと一言だけ残す。

1.キーワード:「情報自体が自然淘汰される」
文脈:Google社内のメンバー5,000人での情報共有をどうやるの?という文脈で出てきた言葉。
意味:大事な情報はみんなによってreferされたり読まれたりするので、勝手に生き残る。他方、不要な情報はみんな読まないしreferしないから勝手に消えていく。
感想:これはつまりは、「生き残ったということは、大事な情報だった」という発想。ベイズ統計学の発想に他ならない。ひょっとして、検索エンジンではベイズの法則を適用しているのか?とか思った。

グーグル、インテル、MSが注目するベイズ理論

こんなところで隠れマルコフって言葉を見るとは思わなかった。

ベイジアンフィルタ、ベイズ理論 – Google、MSNの検索エンジン

でもよく考えると、「ある程度の情報探索能力があれば、大事な情報は勝手に自分の手元に転がり込んでくる」という表現に落とし込むと、別に新しいことでもなんでもない。今も昔もこの表現は真だろう。変わったのは、「情報探索手段」でしかない。昔だったら、井戸端会議で人伝い経路のみが情報を仕入れる手段だったかもしれないけど、それが今ではGoogle活用能力に変化しただけってことか。

そう考えるとすごい。無限にある井戸端会議に匹敵するだけの価値がGoogleにあるってことかな。

2.「高速道路の先は大渋滞」
文脈:将棋の羽生さんの言葉。
意味:将棋を強くなるための情報がネット上に転がっている。しかも大量の情報を整理する手段(Google)もある。したがって、「将棋を強くなるための情報が整理された形でネット上に転がってる」。つまり「将棋を強くなるための高速道路が整備されている」。しかし、この高速道路は無料でみんな乗れる。だから、「すごく短時間で、あっという間に高速道路を走り抜けてある程度まで強くなることはみんな出来る」が、「そこから先に進んでより強くなるところでみんなまごつく」から「そこで渋滞が発生している」ってこと。これは将棋以外でも分野でも起こる。
感想:学問の世界ではどうだろう?Google Scholarには”Stand on the shoulders of giants”と書かれている。”Stand on the shoulders of giants”とはすなわち「高速道理に乗る」ことである。あ、ってか梅田氏の本に影響されてるなぁ。「高速道理に乗る」とはすなわち”Stand on the shoulders of giants”というべきだった。だから、別にこの考え方自体は新しくはない。ただ、これからはありとあらゆる分野で高速道路が整備される、しかもその高速道路はよく整備されデコボコがないすっげー走りやすい道路、という点が重要。そしてその先の大渋滞から一人だけ抜け出すところが大事なステップ。大渋滞するところまでのステップが省略できていいんじゃない、と思う。本当は、学術研究とは「新しい知識の創造」なわけだから、つまり「大渋滞から抜け出すこと」なんだもんねぇ。これで盗作した人間は一発でばれる。ってゆうか盗作しようがない時代が来る。ドイツ語で発表された文献を、ただ日本語に翻訳して、あたかも自分が書いたかのように論文を発表した、という不道徳な学者の話を聞いたことがあるけど、そういうことが、高速道路が整備されると出来なくなる。

いままでは、「この研究分野は、こういう系譜になってます」みたいな研究分野の紹介とか、研究の流れの紹介のみを目的とする文献を書くことも、学者の仕事だった。これからは、そういう非効率な仕事をしなくてよくなる。

学者が、本来の仕事である、「新しい知識を創造する」という学術研究に専念できる時代が到来する予感がする。非常に喜ばしい。

3.「あちら側とこちら側、オープンソース」
文脈:MSのゲイツは、PCの私的保有に感動した世代。Googleのペイジとかは、あちら側の無限の可能性に感動した世代。両者は決定的に異なる。
意味:HDD内でごちゃごちゃやる世界が、「こちら側」。全部ネット上の仮想世界で大規模にやるのが「あちら側」。
感想:計量ソフトは、Rがその他すべての計量ソフトを駆逐する、と確信した。

『経済論戦は蘇る』の読書感想

2002年に出版された本。かなり話題になった経済本なので、いまさらながら、通学の電車での暇つぶしに読んでみた。

2002年の時点で、当時の経済論戦を二項対立に整理できたのはすごい。そして自分の立場はなんなのかもはっきりさせている。自分の意見をはっきり主張するし、自分がおかしいと思う意見を主張する人のことはきっちり批判する。それは、自分の主張に自信がある証拠だと思う。それから文章力もある。読みやすい。人に訴えかけるのが上手。

『統計学とは何か―偶然を生かす』の読書感想文

”クラーメオ・ラオの下限”とかでとてもとても有名なラオ先生の講演内容をまとめたものの日本語訳。

最初のほうをパラパラめくったらけっこうおもしろそうだったので読み始めたんだけど、思ったほどおもしろくなかった。というか、『統計学とは何か―偶然を生かす』というタイトルに過度に期待をしていたけど、そこまでおもしろくはなかった、ということ。

なんでそう思ったかと分析してみると、最近、この手の話はいろんなところで目にする機会が多かったから、機知のことが多かったからかもしれない。さいきん、「リスクマネジメント」とか「不確実性を数量化する」みたいな話、はやってんじゃん。あ、あと、この本の想定している読者層がいまいちよくわからんな。統計学に関する完全な素人を想定しているような書き方をしている箇所がいっぱいあるんだけど、そのわりにけっこう専門的な統計用語を詳しい説明なしに書いてあったり統計学で出てくる数式とかがたまに出てきたりしてた。

話の概要としては、「統計学ってすごくすごく最近になって急速に発展した研究領域で、すごくすごく大事な領域なんだよ」ということだった。具体的にどのように大事かというと、大雑把にいうと「統計学の知識がないと政府の発表とかメディアの垂れ流す数字にだまされちゃうよ」って感じかな。

ちなみに、統計学のプロですら、得られたデータを統計分析した結果の解釈を誤ることが往々にしてありうるわけなので、統計学を少し勉強したからって、真実にそれだけですごく近づけるとは思えない。

この本では話の節々に、ラオ教授の博識ぶりが伺える。ラオ教授の教養レベルすごく高いという印象を受けた。

最後に、幾つか印象に残ったことをメモ。

■統計学とは何か?
統計学とは、芸術であり、科学であり、技術である。

■ゲーデルの不完全性定理
『自然数の理論を形式化して得られる形式的体系においては、その体系が無矛盾である限り、かならずAおよびその否定Aバーがともに証明不可能な論理式Aが存在する』
なんだかわけがわからんが、昔何かの本で読んだんだけど、このゲーデルの不完全定理って要するに「数学という論理的体系そのものが正しいかどうかは、数学的に証明を与えることは出来ない」とかいうことじゃなかったかしら。こう書くと当たり前のようだな。自己矛盾のパラドックスってことでしょ。「すべてのプログラムが正常に機能しているかどうかをチェックするプログラムを書くことはできない」(自分自身が正常に機能しているかどうかをチェックすることができない)というパラドックスとか、「すべてのクレタ島人はうそつきである」というstatementが成立しないのと同じ。
それから、ゲーデルって、神の不存在証明もしたひとじゃなかったっけかしら。これもむかし何かで読んだことがある。

■統計学を慎重に使わないといけない
ある仮説が正しいかどうかを、データを使って統計理論に基づいて検証するとき、どんな仮説も、その仮説を支持するようなデータを都合よく選んでやることで、その仮説を統計的に裏付けることが出来る。だから、サンプル期間の選択基準とかは、客観的に、フェアでないといけない。

■天気予報ってなに?
東京の明日の降水確率は60%です・・・とか天気予報で見る、60%ってなに?小学校のときの某先生が、「東京で雨がふる地域の面積の割合」とか答えてた。また、ぜんぜん別の先生は「100人の天気予報士がいて、60人が雨がふるって予想したったこと」と言っていた。うそでしょ、これどっちも。答えは「過去のデータにおいて、前日の大気の状態が今日観察されたようなものであった場合、そのその翌日に雨が降った割合」です。

■乱数の質
そもそも乱数とは、定義が難しい。とりあえず、「数列が、どのような特別のパターンにもしたがわない」というような、漠然としたイメージで満足するとする。
では、このような理想的な乱数をどのように入手するか?箱の中に黒と白のビーズを同数いれ、ランダムに取り出す、といようなことをやってみよう。これによって得られる乱数は人工的乱数である。一方、男女の出生比率をつかって得られる乱数は自然乱数である。統計的検定を行ってみると、後者のほうが、前者よりも、より理論にあてはまるものとなっていることが示される。何が言えたかといと、「おそらく神はより完全なコインを投げている」ということである。

■神はさいころを振る
宗教が人間を支配していた時代、厳格な因果応報が信じられていた。その時代には、偶然という概念はなく、すべてが必然だった(だって、すべてが運命、神によって定められている、と信じられていた)。アインシュタインは、「宇宙を相手には、神はさいころあそびをしない」と考えた。物事は厳密で決定論的な因果関係にあるという考え方が、以上の考え方。しかし、物事は実は確率的であり、決定論的ではない。確率的だからこそ、将来への不確実性が生まれ、それが人を困惑させる。宗教の支配から人が自由になって科学的思考がやっと出来るようになったことで、ひとは将来の不確実性を数量化し、これをコントロールするようになった。この流れは、今日、リスク管理とか、リスクコントロールとか言われている時代へ通じるものがあるね。リスクマネジメントとかいう概念がこれほど大衆に行き届くまでに、長い歴史を必要とした。ここらへんの話は、この本にけっこう詳しく書かれている。

(神様が全部決めてるんじゃなくって)物事は確率的に決まる、という考え方を許容することで、確率論や統計学が発展してきた。そして、統計的手法を用いてさまざまな分野で応用された(薬がどれくらい効くのか、という統計的な判断をする、とか、本当にいろいろな分野で統計学は使われている)。経済学の場合、計量経済学という形で統計学が応用された。計量経済学において、真のモデルには撹乱項という確率的な項が仮定されているが、これは、神様がさいころを振っているのだ、という暗黙の前提にのっとっている(そんなこと誰もおしえてくれないけど)。

宗教が強かったころは、「神様がさいころを振っている」と仮定し「物事は確率的に決まる」と考える近代の統計学をつかった科学的手法は絶対に生じ得なかったね、と。

ところで、アインシュタインは神はさいころをふらないと考えていたらしいが、この真偽はどうなだろう?純粋に知りたい。

(追記)
■仮説の検証についての注意点
ある仮説を支持する証拠を挙げたということは、仮説の反証に失敗しただけである。

『確率と統計のパラドックス―生と死のサイコロ』

アマゾンで酷評されていますが・・・。

著者は統計の解説より自己満足を目的として書いたと思える節がある。

という評価については、激しく同意です。

内容は、はっきりいって難しい。難しいというか、「著者の自分専用の覚書」的な性格がとても強いから、ほかの人が読んでも理解しにくい。確率論や統計学の知識がそれなりにある僕ですら、こう思うわけだから、普通の人が読めるものではない。

ただ、いくつか面白い記述があったのでそれだけメモしておく。

ウィル・ロジャーズ現象とシンプソンの逆説pp.34~
名前の由来は、アメリカのコメディアンのウィル・ロジャーズが言った「大恐慌のとき、オクラホマ州の住民がカリフォルニアに移動して、平均知能はどちらの州も上がった」というジョークのようである。全体でも見るともちろん、平均知能は上がっていないが、二つの州を別々に見ると平均知能が上がっている。

これが統計学用語に置き換えると「サンプル全体では変化していないが、サブサンプルに分割してみると、全てのサブサンプルで同じ変化がおきている」ということが起こりうる、という点が面白い。