book_mleng.utf8

書評：『機械学習のための特徴量エンジニアリング』

Alice Zheng(著), Amanda Casari(著), 株式会社ホクソエム(訳),
オライリージャパン, 2019年 [Amazon]

@u_riboさんよりご献本いただきました。ありがとうございます。

以下ご紹介します。僕は画像や時空間情報の解析が仕事の65%ぐらいを占めており(言語情報はあまり扱わないですが)、機械学習もツールとして活用しています。ただしいわゆる競技プログラミング系の技術には全く疎いので、この本のメイン・ターゲット層からはずれるかもれません。

さて、この本の最大の魅力はタイトルの特徴量エンジニアリングという言葉にあるかと思います。この本では枕詞に機械学習がついていますが、この特徴量エンジニアリングという用語が持つ破壊力は、データ解析全般に通じる本質的要素を突いているように思います。この点だけで本が一冊書けそうなぐらい重要な点ではないでしょうか。

そういう意味で「1章機械学習パイプライン」は、少し物足りないと感じました。「1.1 データ」,「1.3 モデル」と、ここから書き起こすならやはり哲学的な魅力のある話題が山盛りなので、そういう話が読みたかったと感じました。とはいえ、技術書としては技術を求めるニーズに応えるという使命があり、そこにフォーカスしてコンパクトにまとめたのが本書であるというのは十分に伝わります。

僕は技術本を読むときには、何か学んだなというページの上端を折りながら進めるようにしています。この本の場合(初読時)は、写真右の様な結果になりました。驚いたのは、かなり均一にページが折られているという事です。全般にわたって学びが大きかったという事を表しています。

折られたページは概念の導入と具体的なコーディングテクニックの双方にわたっていましたが、特に「5.2.1 特徴量ハッシング」「5.2.2 ビンカウンティング」は、離散的カテゴリを取り扱う上で重要で、特にハッシングは面白いなと感じました。また、「7章非線形特徴量の生成：k-meansを使ったスタッキング」も面白かったです。技術としては知っていましたが具体的事例をコードで書き下したものを読む事で応用の手がかりになりそうです。

「9章バック・トゥ・ザ・「フィーチャー」：学術論文レコメンドアルゴリズムの構築」は、言語データを取り扱わない事から、いまひとつピンと来ませんでした。ただ、自分の脳味噌が、関連分野のレコメンドエンジンとして駆動しているので内部のアルゴリズムには興味ありますね（笑）

あと掘り出してみたら冬眠中のKaggleアカウントが出てきました。 2016/08/16に登録していたみたいです。Googleに買収される半年ぐらい前のタイミングで、ちょうど界隈で噂になっていたんでしょうか。いくつか触った記憶はありますが、のめり込まずにそのまま冬眠。手元のデータ規模が小さい(“5TB? I forgot how to count that low”だそうです)のが原因かも。

2019年3月25日

kilometer’s

書評：『機械学習のための特徴量エンジニアリング』