渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

RにTorchとLightGBMがやってきた

f:id:TJO:20201004154349p:plain

これまで、RとPythonは両方使える人が少なくないながらも開発陣やコミュニティの思想が違うせいもあってか、「Rは統計学向け」「Python機械学習向け」的な住み分けが年々進み、特に機械学習関連の重要なフレームワーク・ライブラリ類はPython向けのみがリリースされることが多く、R向けにはリリースされないということが常態化している印象がありました。


そんな中、この9月にPython機械学習OSSを代表する2つのライブラリが相次いでR版パッケージを発表したので、個人的にはなかなか驚きました。中には「この2つがRに来たからにはもうPythonは触らない」と豪語する過激派の方もいらっしゃるようですが(笑)、それはさておき個人的な備忘録としてこの2つのR版パッケージを試してみた記録を記事として残しておこうと思います。


なお、以下のモデリングはほぼ何もチューニングを行っておりません。あくまでも「こうすれば回ります」という動作確認以外の何物をも目的としておりませんので、チューニングなどは皆さんのお手元で皆さんの責任で行っていただくようお願いいたしますm(_ _)m またいつもながらですが、コード実装部分に誤りなどあれば是非コメント欄などでご指摘いただけると有難いです。

続きを読む

データサイエンティストの「真の実力」を測るための効果的な面接方法

f:id:TJO:20200915104214p:plain
(Image by neo tam from Pixabay)

最近こんな記事が出ていたようですが、僕にとっては既視感満載の話題でした。何故かというと、実は現職に来る以前に既にここで書かれている面接方法を実務担当者面接の責任者として実践していたからです。ちなみにその方法は2013年ぐらい当時のテック系メディアで記事として取り上げられていたものなのですが、残念なことに現在どれほど検索してもその記事が見つかりません……。

その内容自体はしばらく前に英語版Quoraに書いていたり*1もっと遡ればTwitterに書いたりしていたのですが、そう言えばブログには書いていなかったなと思い出したので、改めてブログ記事にしてみようと思います。なお、ここに書かれている内容は僕の現在の職務とは一切関係がないことを予めお断りしておきます。

*1:自分で日本語版への翻訳記事も書いています

続きを読む

Rで機械学習モデルの解釈手法たちを試してみる

この記事の前段として、まず事前に昨年書いた機械学習モデルの解釈性についての記事をご覧ください。

僕が知る限り、機械学習実践のデファクトスタンダードたるPython側ではLIMEやSHAPといった解釈手法については既に良く知られたOSS実装が出回っており、相応に実際に使ってみたというレポートも見かける状況です。一方、R側ではそこまでメインに機械学習を回す人が多くないせいか、あまりこれまで実践例を見かけないなぁと思っていました。


そんなことを考えながら先日ふと思い立ってググってみたら、意外にも幾つかの解釈手法については既にOSS実装があり、中にはCRANに上がっているものもあるのだと今更ながら知ったのでした。


ということで、二番煎じなのか何番煎じなのか分かりませんが、これらのRによる機械学習モデルの解釈法実装を今更ながら僕も試してみることにします。検証に使うデータセットは統一してUCI ML repositoryの"Wine quality"の赤ワインのデータを使います。一応、Rコード全体をGitHubに置いておきました。

いつもながらですが、今回の記事もほぼ自分向け備忘録なので特に細かい説明は大半を割愛しています。それでも誤認識や理解不足の点などあれば、コメント欄*1でお知らせくださると有難いです。

*1:ブコメではない

続きを読む