渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

『とある弁当屋の統計技師(データサイエンティスト)』はむしろマンガにした方が良かったかも

先日Amazonから届いて読了したので、Twitterでも公言していた通り書評をやってみようと思います。RMeCabその他R関連書籍多数でお世話になっている方も多いであろう、石田基広先生の新刊書です。



色々なところでラノベ風という紹介がなされているんですが、僕はラノベというジャンルの読み物を読んだことがただの一度もない*1ので、そういう観点からの評価は僕にはできませんでした。どうか悪しからず。。。


ざっくり内容紹介


本書の章立てをそっくりそのまま写しても良かったんですが、内容のまとまり具合をもとにちょっとまとめ直してみました。


統計学の基本:データの性質とか代表値とか

  • 第1章:データの要約
  • 第2章:データ分析の王道?


いかにも弁当屋(「正規屋」という屋号が…)にありがちな、売り上げのデータを挙げて「データの性質」「データの代表値」の話題を取り上げています。代表値って言ったら「(算術)平均値」だけではないんですよーとか、中央値とかありますねーとか*2。ここで箱ひげ図(box plot)の話題が出ているのも面白いです。他にも正規分布の話題が出てきます。


線形モデルの初歩

  • 第3章:相関と回帰
  • 第4章:重回帰分析


相関係数の話を起点にして、単回帰分析、そして重回帰分析へと話題が進んでいきます。ここでサラリとt分布の話もついでに出てきます。でもせっかくゴセットの話を出したんだから、ついでなのでt分布が見出されたエピソード*3も書いてくれたら良かったかなーと。。。


意外にも?ちゃんと取り上げられていたのが自由度の話題。確かに初学者がつまずくポイントなんですが、まさかここで出てくるとは思ってませんでした。あ、僕がいい加減なだけか(汗)。


ビジネスの現場と実際のデータに合わせた分析

  • 第5章:データサイエンティストの星
  • 第6章:ロジスティック


自分なりにやってみた分析がうまくいかなかったショックでヒロインの乱子ちゃんが弁当屋を飛び出すという青い展開*4から、統計学の話題から外れて実際のビジネスでのデータ分析のやり方について簡単に概説しています。ここのところはサポートサイトにも「息抜き」と書いてあるので多分そうなんでしょう(笑)。


その後は、実際にビジネス面でありがちな二値分類などをテーマとして扱っていて、ロジスティック回帰、決定木、そしてカイ二乗検定(適合度&独立性検定)が取り上げられています。ある意味この本の中で最もいかつい章かもしれません。最後にオチがあるんですが、そこはここでは秘密ということで。。。


ということで、僭越ながら僕の評価を


いつもながら偉そうに評価なんて言っちゃってすいません。自分が思った通りに書かないと最近は逆に怒られることがあるみたいなので、今回も正直に書きます。


評価:★★★☆☆

オススメ度:★★☆☆☆(あなたが統計学の知識ゼロだけどデータ分析の仕事を今現在任されていて勉強しなければならないのであれば)


決して悪い本ではないし、お薦めできるかと問われれば色々な人に薦められる本だと思うんですが、ちょっと中途半端かなー、というのが私見です。以下にその理由を挙げます。


統計学を用いてデータ分析をする上で、実際にビジネスの現場で使いそうな手法は大体カバーしている


企業でデータマイニングをしている人なら知っているかと思いますが、ビジネスの現場でよく使われる手法の代表格が重回帰分析で、その次に来るのがおそらく決定木とロジスティック回帰なんですよね。手法としては簡便な上に、二値データが結構少なくないせいだと思います。


ところが、世の中のデータ分析入門書には、意外にも普通の重回帰分析とかは適当にすっ飛ばしてSVMとかベイジアンネットワークとかまで突っ込んでいってしまうものがあったりします。このままだとみんな大好き再生核ヒルベルト空間(笑)の話題が載らない入門書はなくなるんじゃねーの?みたいな雰囲気すらあるような。


他方で、世の中の超入門系の本だと線形重回帰分析(正規分布回帰モデル)で止まってしまうケースが多いので、きちんとビジネスの現場で頻出の決定木とロジスティック回帰に触れられているのは良いことだと思います。RでなくともS何とかSSとかS何とかSとか、有償の商用ソフトにもデフォルトで入っている手法なので、ここでそれなりに説明がされているのは良いですね。


一方で、実際に「統計分析」として用いられる諸手法に至るまでの基礎知識の説明が長過ぎる


しかーし。実を言うと気になる点の方が多かったのです。辛口で大変恐縮ですが、以下ツッコミが続きます。


まず、上の内容紹介で言えば、この本全体の実に3分の1が基礎知識の説明に充てられてることになっています。正直言って、多分「統計学絶対に身につけなきゃ!」と勢い込んで読み始めた初心者でも、この3分の1を読み切る前に退屈過ぎて心が折れるんじゃないでしょうか。。。


個人的には、確かに弁当屋のデータで表すのも大事なんですが、むしろもっとガンガン図表とか使ってサクサク説明を進めてしまった方が良かったかも?と感じました。


ストーリー仕立てにするところに腐心し過ぎて中身が冗長な構成になっている:むしろマンガで良かったのかも


これは単なる好みかもしれませんが、頑張って乱子と文太のダイアローグ&ラブストーリーに持っていこうとしているせいか、どうしても話の流れが冗長になりやすいんですよねー。企画がこうなんだから仕方ないのは百も千も万も承知なんですが、やっぱり辛いです。


これが同じような内容で、普通にコマ割りされたマンガで描かれていたら案外サクサク読めたのかも?という感想を持ちました。マンガでストーリーと乱子&文太のやり取りを描いて、エッセンスのところは随時別ページでパッとまとめて書いておく、みたいな。


ちなみにうちの嫁さん(IT企業勤務&非エンジニア&統計学の知識ほんのちょっと)に読ませて感想を聞いた結果がこちら。

  • 誰をターゲットにしているのかよく分からない。本当の入門書として勉強したい人にとっては冗長過ぎるのでちゃんとした真面目なテキストにしても良かったのでは
  • 逆にもっと何も分かってなくてただ何となく統計学の雰囲気を知りたい人にとっては、ストーリーが面白くないのでマンガにしても良かったのでは
  • ストーリーとして分かりにくい上に、出てくる数式も頭に入ってこないでの読んでいてつらい


と結構辛口でしたw ま、嫁さんはラノベとかも読み慣れている&統計学の初歩ぐらいは知っているのでなおさら評価が辛かったのかもしれませんが。。。ちなみに「マンガだったら良かったのに」は上記の通り僕も同意です。


あとがきとサポートサイトが良いです


巻末にサポートサイトが紹介されています。ぶっちゃけ、サポートサイトの内容の方がストレートで良いと、僕個人は思いました。そしてもっと書いてしまうと、多分「あとがき」だけでもシンプルで要を得ていると思います。


もっとも、何をどう訴求するかがポイントなので、そこ次第ではあるんですが。。。


最後に


あの石田先生が書かれた本なのでデータ分析業界まわりでは色々期待される向きもあるのかもですが、これは帯にデカデカと書いてある通りで「統計の初歩の初歩を学ぶ」ための本です。


言い換えれば「代表値と言われたら平均値以外何も思い浮かばない人」や「分散とか標準偏差とかエラーバーとか言われても何言ってるのかさっぱり分からない人」のための本であり、これらを理解している人向けの本ではないわけです。


そういう意味で言うと、これは技術書とか専門書のコーナーに置かれるべきではなく、むしろ本屋に入って最初の一番手前の山積みコーナーのところに何とか置いてもらって欲しい本かな、と思いました。ただ、そこで売れるためにはやはりもうちょっとどちらか(もっとズブの初心者寄りorもっとしっかり勉強したい人向け)の軸に振り切るべきだったかなぁ、と。


ともあれ、次回以降共立出版さんがさらにチャレンジングな本を出して下さるものと期待しております。こういう「分かりやすい本」のニーズは今後も増していくものと予想されますので、まずは一発目を出すことが大事ですよ!ということで。


余談


ものすごーくどうでもいいことなんですが、SIerでデータサイエンティスト*5ってやっぱりこんな感じの仕事のやり方になるんですかね? だったらなおさら僕には向いてなさそうです。。。


そうそう、こうやって偉そうに書評とか書いてますが、多分僕が本を出したらこれより超絶酷評されまくるのは火を見るよりも明らかです(笑)。その日が来たら、是非皆さん僕宛てに酷評突き付けて下さい。。。ああ怖い。

*1:というか小説を読む習慣が全くない

*2:ただし最頻値は出てこないです

*3:ただしStudentのペンネームで生涯通した話は出てきます

*4:これってラノベでは普通なんですか?

*5:経団連系メディアが一押しのデータ分析職のキャリアですよ(笑)