kilometer’s

a junk space

[研究関連]  [R関連] [書評] [その他]

home


『データ分析のためのデータ可視化入門』

キーラン・ヒーリー(著), 瓜生 真也 (翻訳), 江口 哲史 (翻訳), 三村 喬生 (翻訳)
講談社, 2021年 [出版社サイト]

翻訳に参加した本書が販売開始となりました。ここに宣伝記事を書きます。

本書はデータ可視化の思考法に始まり、Rのggplot2パッケージを使ったデータ可視化の考え方と手の動かし方を同時に学んでいくという構成です。特に、第2章以降に登場する100枚以上の図は、基本的に本書に掲載されているコードで全て再現することができます。従って、考え方を読む -> コードを実行する -> 結果を実感というループを繰り返すことで密な学習を実践できる内容となっています。探索的なデータ解析を行う方には広くお勧めです。

底本

底本は “Data Visualization - a practical introduction”, Kieran Healyです(リンク先の著者ページにて公開されています)。この本は発売後すぐにRコミュニティで評判になり、評判を聞きつけて僕もすぐに購入しました。実のところ、この原書を読んだ段階で英語は平易で、主張も明快でとても分かりやすいなと感じていました。なので翻訳にジョインすることが決まった時には、それほど苦労せず行けるんじゃないかとナメていました。蓋を開けてみれば、このプロジェクトが完了したのは最初の打ち合わせから600日以上経ってしまいました。

翻訳にあたって読み込んだのでもうボロボロです。自分が担当した章はすべてのページがこうした構文構造やメモで埋まりました。知っている単語であっても、英語として意味を理解することと、それに該当する日本語の単語を思い浮かべるのはかなりギャップがある作業だと痛感しました。例えば、英語は動詞が主体になっているので名詞が主体の日本語に素直に訳出しようとすると「〜すること」の嵐になってしまうんです。意味は取れているし、日本語として間違っているわけではないのですが自然な日本語にならない。なので1文を訳すステップを繰り返しても数文まとめると文章として流れない、ということになります。

こうして翻訳を経験すると、これまで散々読んできた小説や専門書の翻訳版が、もう神々しく尊く輝いて思えます。自分が手を動かすと先人の凄さが分かるという意味でとてもよい学びでした。

担当章から

訳者あとがきにも書きましたが、実際の作業は3名の訳者がそれぞれ担当章を決めて翻訳を進めて、あとから全体を調整するという方法を取りました。第7章「地図を描画する」は瓜生さんの大得意の分野ですし、第6章の「モデルデータの可視化」はバリバリの統計モデラの江口さんが適任です。僕はというと神経科学・認知心理学寄りの背景を生かして第1章「データを見る」の翻訳に手を挙げました。この第1章と第8章「プロットを整える」は地続きの内容ですし、あとは概ね三等分ということで第3章「プロットを作る」(と謝辞・まえがき・推薦の言葉・訳者あとがき)も担当しました。

この第1章は40ページほどの分量ですが、Rのコードが1行も登場しません。これはこの手の技術書ではおそらく異例だと思います。つまり定石ではまずR(とRStudio)をインストールして手を動かしてみましょう、簡単な作図をしてみましょう、さあどうですか?今作った図について色々と考えていきましょう。と進んでいきます。本書も第2章「さあ、始めよう!」以降は概ねそのストラテジを採ってますが、その前の段階でみっちりと誠実なデータ可視化についての説明にページを割いているのです。

第1章のメッセージは「見栄えのする図」を追い求めたり「全てのデータ可視化に適用できる絶対の法則」に収束させてはならない、というものです。自分は何を意図してどんな可視化を試みるのかを正しく認識することと、それを読み手がどう受け止めるかを熟知して誠実に向き合うこと。このアプローチは一見とても遠回りですが、王道でもあります。そこから外れるな、とHealyは主張しています。

苦労話を少し

この翻訳プロセスでは、掲載されているRのコードは(自分で書くならこう書くんだけどというこだわりがあったとしても)基本的に原書のママの表記となっています(翻訳時点で非推奨となっている表記方法など、いくつかの点では注釈を付した上で最新版の関数に改めています)。

例えば、本書では

p <- ggplot(data = ..., mapping = aes(x = ..., y = ...))

という書き方をしますが、僕の好みとしては実行結果は変わりませんが

p <-
  ggplot(data = ...) +
  aes(x = ..., y = ...)

こう書きたいんですね。ただし全てのコードをこの形式に揃えると、改行の回数がとても増えるのでページ数が(ただえさえ多いのに更に)増えてしまいます。そしてもちろん我々の作業はあくまで翻訳であって、原著者のこだわりは我々のこだわりに優先します。そうしたせめぎ合いというか切磋琢磨というかトレードオフというか火花が散った結果、読者の皆様に明確に利すると判断できるいくつかの重要な箇所に絞って注釈付きでコードが新しくなっています。

また個人的には、担当した第8章の図8.21と図8.22が差し替えとなっている点も挙げておきます。これは原著の中で記述と合っていなかったもので、著者に確認のうえ修正版を作っていただいたものです。問い合わせたところ「よく見つけてくれた!」みたいなコメントをいただいて嬉しかったです。これは今のところ著者のWeb公開版でも修正されていないので本書でだけ最新版の図になっています。

謝辞

訳者あとがきに書きましたが、翻訳版の出版にあたり本当に多くの方々にご協力いただきました。改めてこの場をかりて感謝申し上げます。プライベートではこの1年間は育児とコロナ禍対応で思うように作業を進めることができず、関係各位にご迷惑をおかけしてしまったと恐縮の至りです。その裏返しで、このプロジェクトを進めるために忙しい私生活の中から多くの時間を割くことを応援してくれた妻にはとても感謝しています。息子はつい先日に1歳になり、みるみるうちに成長しています。どこかで「とーちゃんはな、お前が生まれた頃にはこんなことを、…」と話してみることを今から楽しみにしています。最後に、本書を手に取っていただいた全ての皆様に感謝申し上げます。おかげさまでTop画像のように「 ベストセラー1位 - カテゴリ 情報学・情報科学全般関連書籍 」をいただいております。今後とも応援のほど、どうぞよろしくお願い致します。


2021年2月1日