kilometer’s

a junk space

[研究関連]  [R関連] [書評] [その他]

home


Irisデータについて

irisデータの利用に関し、僕はその積極的な利用を推奨しないという立場をとります。これについて「(十分な説明なく)irisデータセットの利用を止めるように言っているのは科学的に不誠実な態度で、大いに問題だ」(原文)との指摘を受けました。科学的に不誠実な態度とまで言われてしまうと誤解されかねないので、関連する主張の概要をまとめます。以下のように「irisデータの利用をやめろ」とは主張していません。

irisデータ

irisと呼ばれる有名なデータがあります。3種類のアヤメ属(Iris)の植物(I. setosa, I. versicolor, I. virginica)の花弁とガクの幅と長さを、それぞれ50サンプルずつ測定した結果をまとめたものです。疑似データではなく実測値データです。一般にirisデータは(比較的単純な)統計解析プログラミングを誰でも再現できるように例示するためのサンプルデータとして用いられます。

  1. 手軽に使える
  2. みんな知っている

僕はこの2点から過去のいくつかの解説記事や勉強会のチュートリアルでirisデータを使ってきました。ところが調べてみるとこの2点いずれにおいても考慮するべき点が山のように出てきたので、それらの点を把握した時点から使用を控えています。マンパワーに限りがあるので資料を過去(具体的には2020年9月より前)に遡って修正はしていません。その点はご容赦いただきたいと思います。

ミスコピー版

irisデータには複数のバージョンが存在します。オリジナルのデータはFisher 1936において公開されたものです。しかし例えば有名な機械学習関連データベースのUCIのMachine Learning Repositoryに掲載されているデータは、部分的にオリジナルの数値と異なります。この詳細はBezdek 1999にまとまっています。ということは「みんな知っている」と思ってきたirisデータがオリジナルのirisデータなのかミスコピー版AなのかBなのか見解が一致しなくなる可能性があります。自分のirisは原典の数値と一致しているから大丈夫だという話ではなく、「あ、あなたはそのirisを使っているんですね。僕のと違うirisだから結果が完全には再現されないんですね」ということになりかねません。これではサンプルデータとして「手軽に使える」ものではありません。

このミスコピー版がどのような経緯で生まれたのかはよく分かりませんが、誰かがirisデータを利用する際に写し間違えたのだと思います。「データを使う」という行為が、データそのものから独立した行為なのではなく、いわばデータのナラティヴの一部として後世に引き継がれていくものであるという事実を端的に示している良い例だと思います。

penguinsデータ

Rではpalmerpenguinsというパッケージが公開され、penguinsというデータセットが容易に取得可能となっています。これは3種類の似通った生物種について分類学的・生態学的考察を行う目的で収集されたそれほど大規模でないデータという点でirisデータに類似しています。実際、irisデータを使う場面においてpenguinsデータでは支障が生じることはほとんどないと思います。

penguinsデータのライセンスはCC-0すなわち「いかなる権利も保有しない」完全なパブリック・ドメインことが明記されています。また、最初から電子データでの公開ですのでミスコピーのようなクラシカルな問題が生じる余地はありません。原典の引用が必要な程度に公的な場合、どのように表記すれば良いのかも明記されています。このように現代的なデータ利用に即した形で整備されているというのは、サンプルデータを選ぶ際に大きな利点となります。

以上の議論だけでirisデータを積極的に使わない合理的理由は十分に説明できていると思います。

このノートの本筋とは異なりますが、penguinsデータのもととなった研究も色々と面白いのでデータのナラティヴに興味のある方は楽しめると思います。

データ利用における科学的誠実性

科学的誠実さというキーワードが出てきたので、データ利用における科学的誠実さに関する見解をまとめておきます。

尚、一般に他で公開されたデータを公的な場で利用する場合、そのデータが公開された原典を引用する必要があります。従って、その原典に記載された内容を十分理解し、自分の中で位置付けなければなりません。以前はこのような努力が足りず、手拍子で「みんな大好きirisデータ」を使っており、それこそ科学的に誠実でなかったと大いに反省しています。

さて、実測値データはある日突然空から降ってきた数値の集合ではなく、実存を情報に写像したものです。この写像のことを観察と呼ぶこともあります。観察は観察者の意図に基づいて行われます。従ってあらゆる実測値データには必ず観察者の意図が紐づけられています。それがどんな意図であれiris[1, 1]5.1であるという結果は変わらないから、データ利用において観察者の意図など重要ではない、と言ってしまえばそれまです(そのような立場もあるでしょう)。

それに対し、僕はデータを利用する際にはそのデータに受け継がれてきたナラティヴに耳を傾ける姿勢を大切にしたいと考えています。これは単に誠意の問題だけではなく、僕のこれまでの経験では直接的に数値に現れない背景知識(データ測定における背景・意図・目的・履歴)を把握しておく姿勢はデータ解析を効果的に進めるうえでとても役に立ちました。Kaggleでいうところの「ドメイン知識」もこれにあたると思います。

このデータのナラティヴを重視する態度はどちらかというと「データを測定する立場」で研究に携わり、いかに観察者の意図がデータの測定プロセスやその結果に対して影響を与えうるかについて実践的に経験を積む中で養われたものだと思います。バックグラウンドの異なる、例えば「データを解析する専門家」の方には別の科学的誠実さがあるのだと理解しています(それを否定する気は毛頭ありません)。

irisデータに紐づく意図

ではirisデータはどのような意図に基づいて観察され、整備され、公開されたのでしょうか。

irisデータの測定

まずこの数値を測定したのはE. Andersonです。Andersonはアヤメ属の分類学的疑問として単一の種が複数の種に分化する過程に興味を持ち、類似して見える複数のアヤメ属の植物について詳細な測定を実施しました(Anderson 1936)。この論文はideographと呼ばれるデータ可視化手法を提案していたり、面白い記述が多く見受けられました。このAnderson論文を引用するだけでirisデータを使えるなら、「みんな大好きiris」でいいんじゃないかと思います。ただし、一般にirisデータを引用する場合、この論文は使われません(併記される場合はあります)。何故ならirisデータがよく知られた形式で具体的な数値が記載されているのは別の論文だからです。

irisデータの整備・公開

irisデータを引用する場合、通常Fisher 1936が用いられます。Fisherが自身の統計解析技術の有効性を示す論文を書く際、解析の具体例としてAndersonにデータを提供してもらったという経緯が論文の中に記述されています。irisデータを引用する際に必要な文献ですので精読が必要です。

まずこのFisher論文は「Annals of Eugenics(優生学年鑑)」という雑誌に掲載されました。論文の内容はアクセス・フリーで公開されていますが、優生学研究者の研究がしばしば人種、民族、障害者グループに対する偏見に囚われていたという背景を踏まえた研究利用目的のアーカイヴである(表書きに書かれています)ことに留意が必要です。通常すなわちこのような表書きが無い雑誌に比べて、この優生学年鑑を引用する場合はその公開意図に沿った引用を心がける必要があります。これもirisデータに紐づいた意図として配慮するべき点であり、irisデータが単なる数値の集合ではないという点で重要です。

しつこく書きますが、このFisherの論文も「(Andersonが測定した)データを利用する」という行為にあたります。それが後世に受け継がれ、優生学年鑑の公開意図やデータのミスコピーを伴いながら広まり、「みんな大好きiris」として親しまれ、その他世界中で利用される際のさまざまな経緯と併せて現在のirisデータに紐づけられたナラティヴを作っています。データを利用するという行為はデータそのものから独立したものでは無い、というのはこういう考え方です(異論はあるでしょう)。

次に、論文本体です。Fisherはこの論文でLinear Discriminant Analysis(以下LDAと略します)という解析技術を紹介しています。他の分野で有効性が既に確認されているLDAを分類学的問題に応用した、という内容です。この背景について以下のように記述されています。

WHEN two or more populations have been measured in several characters, x1, … , x8, special interest attaches to certain linear functions of the measurements by which the populations are best discriminated. At the author’s suggestion use has already been made of this fact in craniometry (a) by Mr E. S. Martin, who has applied the principle to the sex differences in measurements of the mandible, and (b) by Miss Mildred Barnard, who showed how to obtain from a series of dated series the particular compound of cranial measurements showing most distinctly a progressive or secular trend. In the present paper the application of the same principle will be illustrated on a taxonomic problem; some questions connected with the precision of the processes employed will also be discussed.

LDAの背景について書かれた内容はこれで全てです。

この中で僕が考慮するべき必要があると感じる用語が1つありcraniometryです。これは頭蓋計測学と訳され、craniologyとも表記されます。優生学の文脈で頭蓋計測学は単に解剖学的・進化人類学的に頭蓋に関する測定を行う研究を示すものではありません。「ヒトの頭蓋骨の形状を詳細に測定する事でその個人の人格や知性を明らかにできる」と主張する学問体系であり、まさに人種、民族、障害者グループに対する偏見を肯定し、助長してきました。これは優生学の反省から学ぼうとする統計学徒にとってかなり基礎的な知識だと思います。その詳細をここに記述することはしませんが、カジュアルに概観するにはペンシルバニア大学考古学人類学博物館(Penn Museum)が公開している記事(A History of Craniology in Race Science and Physical Anthropology)などが良いと思います。ただし、僕が思うよりも一般的な知識では必ずしも無いようなので(参考)気力があるときに別途まとめるかもしれません。

植物学の論文でirisときたらアヤメ属の植物、眼科専門誌にirisが出てきたら虹彩を示すように、この論文におけるcraniometryが、優生学的文脈における頭蓋計測学を示していると考えるのは妥当だと思います(断言はしません)。少なくとも現代的なcraniometryの意味と無条件に同一視するのは誤読の可能性が非常に高いと思われます。歴史的変遷の中で単語の意味が変換することはよくあります。例えば日本語の「あやめ」も古典と近代で違う花を指すそうです(「いづれあやめかかきつばた」)。なので誤読を避けるためには論文執筆当時の時代的背景や、論文が投稿・公開されたコンテキストを考慮にいれる必要があります。これもいわば単語というデータに紐づけられたナラティヴですね。

それを踏まえ、“At the author’s suggestion use has already been made of this fact in craniometry ……”という一文から、筆者は頭蓋計測学の研究成果を肯定的に捉えていると解釈する余地があると僕は考えます。アヤメ属の生物学的分類におけるLDAの有効性を議論するうえで、craniometryについての記述は無くても成立します。あえて入れていると考えられ、解析手法の先行研究として挙げられているのはこのcraniometryだけです。それが本論文における特筆すべき先行研究成果だという位置付けだと考えられます。ここの記述を入れる事で、雑誌の中の人や読者に対してアピールし、本論文の価値が高まると考えていなければここにこの記述は本来不要だと思います。従って、Fisherはこの論文においてcraniometryにおけるLDAの研究成果を肯定的に強調していると読み取る余地があります(断言はしません)。

まあ正直なところ、これに加えて優生学的な文脈における生物分類学というのも大いに気になるところです。が、その点では植物に関する議論に終始しているので強い議論をするつもりはありません。本論文の執筆意図を「アヤメの分類にLinear Discriminant Analysisが使えることを示しているわけで、優生学者にでは無く、分類学者に統計手法を売り込んでいます」と要約する方もいます(原文)。その解釈は可能で、少なくともその1面があると考えるのは妥当かもしれません。ただし同時に、例えば生物分類学や植物学の雑誌ではなく、想定されている読者の多くが優生学者であることが想定されている優生学雑誌を選んで投稿・掲載された論文ですので「優生学者に対して優生学的文脈における生物分類学の新たな手法を売り込んでいる」という1面を完全に否定するのは困難なのではないか、という点も指摘したいですね。また、「IrisデータセットはLDAを頭蓋測定法から開放しているのだから、LDAと優生学と切り離してい」(原文)るという解釈もあるようですが、賛同できないですね。なにしろ優生学年鑑に記載されている論文なので「優生学と切り離して」はいないと解釈するのが自然です(が、とりあえずこれも断言はしません)。

以上の議論を踏まえると、この論文の記述から、Fisherがこのirisデータが掲載された論文をどのように位置付けていたのか(どのような意図を持って執筆・公開された論文か)をある程度推定することができます。そこに優生学への積極的な支持が含まれている可能性を完全に否定できないというのが僕の考えです。従って、現代的な意味でパブリックな利用を前提に整備された別のデータで代替可能な状況において、この論文をあえて引用してまでirisデータを使ってあらぬ誤解をまねく余地を残す合理的理由はみあたりません。

つまり、論文の引用が必要な程度に公的な場では、よくある「みんな大好きiris」というノリで利用するという態度を僕が積極的に取ることはありません。もう少し強く「そのような形での使用を推奨しません」と言うこともあると思います。「この場合、irisを(他の選択肢ではなく)あえて使っているのですか?」と理由を訪ねる場合もあるかもしれません。

まとめ

使用する際のミスコピーや、Andersonが測定したデータをFisherが使用したことがirisデータのナラティヴの一部になっているように、データをどのような立場でどのような意図に基づきどうやって利用するのかはそのデータに紐づけられたナラティヴの一部となり、後世に引き継がれていきます。望む望まないに関わらず、今まさにデータを使おうとするその行為が、データのナラティヴに新たな一歩を付け加えるのです。データを適切に利用するために、データのナラティヴに向き合うことの大切さを改めて強調しておきます。

とはいえ、当たり前のことですが、どんな場面でどんなデータをどのように使うかは各個人の責任において判断すれば良いと思います。このノートはその判断材料の1つとしてご参照いただく目的で書かれています。



2022.05.13
部分修正:2022.05.17 (Ken McAlinnさん、uncorrelatedさんとの議論を踏まえ)
部分修正:2022.05.18