book_datstat.utf8

書評：『データ分析のための統計学入門』

David M. Diez(著), Mine Çetinkaya-Rundel(著), and Christopher D. Barr(著)
国友直人(訳), 小暮厚之(訳), 吉田靖(訳) [無料公開pdf] [解説記事]

無料公開でこの量は凄い。何から手をつけて良いかわからないヒトは目を通すと良いかも。

何かを学ぼうとするときに「この1冊さえ完璧に読みこなせればOK」というような方法論を僕はあまり取りません（フォーカスと達成目標が固定されている試験勉強はその限りではありませんが）。全てのイシューについて誰もが納得する完璧な説明を述べた書籍は無いからです。そこでどうするかというと該当する内容について書かれた書籍に何冊も目を通すことになります。著者の方はもちろん「自分が考える最もわかりやすい記述」を述べられているのですが、それを複数方向からインプットすることで、学びたい対象について大まかなアウトラインを取ることができます。

例えば「統計学入門」を考えたときに、それぞれの書籍の特色は「何を書かないか」によく現れます。何冊か読み比べると、ああ、このアプローチでは取っ付きを良くするためにこの辺りを省いたり単純な記述に留めたんだなということに気づけます。本書の範囲で言えば、データについて(1-2章)、確率について(3-4章)、統計モデルと仮説検定について(5-7章)、回帰分析について(8-9章)というようなイシューが取り上げられています。特に5-7章は面白い書き方をしているように思いました。それぞれのイシューについて読み比べながら気に入ったアプローチを深めていくと良いと思います。何冊も読むという前提にたった上で、その何冊の中の1冊に足りうる本書が無料で公開されているのは素晴らしいことだと思います。400ページもあり、著者・訳者のご尽力には頭が下がります。

点推定だけを使用するのは濁った湖で銛を使って魚を捕るようなものである。(p.189)

こういう言い回しはあまり日本語のセンスにはない翻訳ジョークみたいなものですが、これは良い例えだと思います。信頼区間について話を広げていくうえで上手くイメージをつかむことができました。こうした概念について学ぶ際に何がどこまで「言い切れる」のか、というのは重要です。例えば次のような記述は読んでいて心地よいですね。

信頼区間は、個別の観測地や点推定値については何も言っていない。  
信頼区間は母集団のパラメータが信頼できる範囲を提供しているに過ぎない (p.194)

片側検定が有効なケースは極めて稀 (p.211)

仮説検定について例えば第5章の内容は本書の目玉と言えるでしょう。特にここで標準偏差（SD）ではなく標準誤差（SE）を基本に説明しているのは、僕の中では新手でした。概念を上手く言語化しているのは脳味噌の整理に役立ちます。

ANOVAの戦略：後ろに下がって全ての群を同時に考えよ (p.306)

また、記述が手続き的である点も良いです。取り扱うデータやモデルの特性が変わったとしても仮説検定の手続き的な考え方の枠組みは共通なので、それを繰り返し色々な素材で学ぶことでより深く理解することができると思います。

実際のところ、本書では実に様々な事例についてデータが取り上げられ（全てオンラインで入手可能です）、統計的な検証が加えられています。最後のデータが人種差別に関わるものでしたが、

 どのようなものでも差別は重要な事項であり、データを用いてこの話題を取り上げることにした理由である(p.389)

このように書かれている志には大いに共感するところです。データを社会的背景から切り離された数値としてしかみないのは危険だからです。ただし、その点でp.24にはフィッシャーのアイリスのデータが取り上げられ、例の論文が引用されているのをみると、その必然性には疑問符がつきます。これについては以前にTokyo.Rで話したので興味のある方はそちらをごらんください。

データ可視化については例えば図表1.8や1.9みたいな図はあまり感心しません。黒色点がデータのマッピングなんですがその背景に青色点が重ねて描かれています。これで何を表したいのか全くピンと来ませんでした。全体にヒストグラムが多用されているのも気になります。本文にもありますがヒストグラムはbinの選択によって騙されやすいので僕はあまり使いません。

連続分布の導入(p.130)のところですがこの説明だけでは「確率分布」「累積確率分布」「確率密度分布」という連続分布のコアになる概念を正しく捉えるのは難しそうです。図表3.24の4つのパネルの縦軸は全然違うというのは割と大事な話だと思います。ベイズの定理(p.110)はデンドログラムからいくんですが、ちょっとここもこれだけでは厳しいかなという印象でした。回帰分析への導入パート(8章)では、回帰直線の導出と、統計的な回帰モデルの区別をふんわり書いているのが気になりました。直線をあてはめる（フィットする）(p.318)みたいなところですね。僕はここをしっかり区別して表記する方が好みです。

こう並べると文句ばっかりに見えますが、総じて仮説検定まわりの概念を理解する上で十分な構成になっていると思います。該当範囲についてどこから手をつけたらよいのか迷っている方は、一通り目を通すことで他の本を読むための基礎的な知識を十分に得ることができると思います。

細かいところ

p.18 変数popは数値変数(で)あるが
p.26 「特定化」というのは何だろうか
p.30 後ろ向き：事象が起きた後(前?)のデータを観察
p.30 集落/クラスター/クラスタ (揺らぎ)
p.89 〜ルールはAdditional Ruleのように頭大文字になっているんだけどこれでいいのかな？
p.101 ファション（以下多数, 図3.12ではファッション）
p.336 ダミー変数 -> p.355 指標変数（訳注：ダミー変数）となっている

2022年1月17日

kilometer’s

書評：『データ分析のための統計学入門』