機械学習
空前の人工知能ブームの中、主にエンジニアを中心とする若い人たちは必死に人工知能(機械学習)の研究開発・技術開発のトレンドを追いかけ続けているように見えますが、一方でそういう若い人たちをマネージする立場のエグゼクティブの方々を見ていると明ら…
3年前に因果フェスというイベントでGranger因果について専門家でもないのに講演させられるという稀有な経験をしたわけですが。 その時のイベント報告記事で、会場でのディスカッションの内容を踏まえて僕はこんなことを書いたのでした。 非線形Granger因果性…
(Image by Pixaby)この記事は去年はてブ1100以上ついてしまった与太記事の続編です。その時はタイトルを読んで字の如く「データサイエンティスト」と「機械学習エンジニア」の満たすべきスキル要件(の2017年版)について考察したものでした。 で、まだ1年し…
(Image by Pixabay)こんな面白い記事が出回っているのを先日見かけたのですが。 この6年弱のデータ分析業界での個人的な経験や業界内で見聞してきた知見の範囲で言うと、そもそも「データ分析は『強者の武器』であって小さな組織が使っても強い武器にはなら…
George E. P. Box - Wikipedia統計学や機械学習の世界ではよく引用される"All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)という格言ですが、2013年に亡くなった統計学の大家George E. P. Boxの言葉…
Deep Learning_ Practice and Trends - final.pdf - Google ドライブ明けましておめでとうございます、本年もよろしくお願いいたします。新年一発目の記事はただの備忘録です。
(Photo by Pixabay)これはただの年末ポエムです。何ひとつとして高度に技術的な話もなければ、ためになる話もありませんので予めご了承ください。時が流れるのは早いもので、僕がインダストリーにおけるデータ分析の仕事を手がけるようになってから5年目の今…
そう言えば、ちょっと前のデータ分析業界5年間振り返り記事で「人工知能ブームに引っ張られてデータサイエンティストブームも再燃しつつある」みたいなことを書いたわけですが、本当にそうなんだっけ?というところをこれまでに検証したことはなかったなぁと…
今年も何冊か書籍をご恵贈いただいたんですが、忙しかったり他に書きたい記事があったりでそのタイミングで書評を書きそびれたものを、大変恐縮ですがこのタイミングでまとめて書かせていただこうかと思います。
前回の記事でようやくDeepっぽいところまで来たので、そのままさっさとDeepらしさの象徴でもあるCNN (Convolutional Neural Network)にいってしまおうと思います。ちなみに今回も大して参照していませんが、参考文献として深層学習青本を掲げておきます。深…
出張していたり足底筋膜炎にかかったりしているうちに、すっかり生TensorFlowの勉強が滞ってしまっていました。とりあえず先に進みます。いつも通りですが、特に意味はないものの教科書としてこちらを挙げておきます。深層学習 (機械学習プロフェッショナル…
(Photo credit: https://pixabay.com/en/data-dataset-word-data-deluge-1188512/) 人工知能ブームで世間が喧しい昨今ですが、それに伴って往年に見かけたような内容のビッグデータ論やデータサイエンティスト論や機械学習システム論が再び出回るようになっ…
何となくTFのお作法が分かってきたのでどんどん先に行きます。そう言えばただの備忘録なので何一つ出典とか参考文献とか書いてませんが、このシリーズでやっていることの理論的基礎は深層学習青本がほぼ全てカバーしています。深層学習 (機械学習プロフェッ…
前回はロジスティック回帰をやったんですが、そう言えば普通の線形回帰やってなかったのでやっておきます。線形回帰は漫然とOLSでやるなら普通に逆行列計算しておしまいなんですが、それだと面白くないのであえて勾配法でやるという間抜けなことをやろうと思…
よくよく考えてみたら、TensorFlowをバックエンドとしてKerasを回したりさらにR上で動かしたりしたことはあるものの、肝心のTensorFlowを生で書いたことって数えるくらいしかなかったのでした。これではいかんと思うので、今更ながらですがTensorFlowを生で…
A Neural Network PlaygroundというDeep Learningのパラメータを変えながらその挙動を見て学べる(楽しめる)サイトがTensorFlowプロジェクトからの提供であるんですが、そのサンプルデータセットの4番目に「渦巻きサンプル」(別名「スイスロール」)があり…
弊社のランチゲストにお招きしたことのある[twitter:@tmaehara]さんが、こんなことをツイートしておられました。imbalanced data に対する対処を勉強していたのだけど,[Wallace et al. ICDM'11] https://t.co/ltQ942lKPm … で「undersampling + bagging を…
この記事は2年前の以下の記事のアップデートです。前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書け…
Python側でのTensorFlowの隆盛を他所に、R側では{tensorflow}も使いにくいし*1これはPythonistaに転生しなければならんのかなぁ。。。ということを思っていたら、出ました。あのKerasのRパッケージです。インストール手順は普通にhttps://rstudio.github.io/…
これは前回の記事の補足です。もう見たまんまで「そもそも1クラスSVMの決定境界を具体的に描画してみたらどうなるんだろう?」という興味を持ったので、漫然と2次元でやってみます。前回の記事同様、1クラスSVMの推定に用いるのは{e1071}パッケージのsvm関数…
(注:ただの備忘録ゆえ、ほぼ確実に後で追記が出る見込みです)今回はコロナ社井手本の第3章を取り上げます。入門 機械学習による異常検知―Rによる実践ガイド作者: 井手剛出版社/メーカー: コロナ社発売日: 2015/02/19メディア: 単行本この商品を含むブログ…
機械学習コンペと言えばKaggleというのはもはや世の中の常識(一部誇張表現あり)になりつつありますが、「データ分析プロジェクトの8割が前処理」という現実を目の当たりにし続けている身としては「そんなRDBSにデータが入った先の綺麗なところで戦うのもあ…
(Photo credit: https://pixabay.com/en/books-door-entrance-italy-colors-1655783/)この記事は一昨年のこの書籍紹介記事のアップデート版です。相変わらず毎月のように新刊書が出続けるデータ分析業界ですが、良い本が増え続けてきたせいでついに初級者向…
今回は小ネタ。ボサーっとCRAN Task View: Machine Learningを眺めていたらこんなものを見つけました。これ、カラクリは簡単で単にR側にはデータのポインタしか渡さず、データの実体はストレージからオンライン(ストリーミング)で読み込むようにしていると…
さて、気紛れから始まったこのシリーズですが。今回は第2章を取り上げます。入門 機械学習による異常検知―Rによる実践ガイド作者: 井手剛出版社/メーカー: コロナ社発売日: 2015/02/19メディア: 単行本この商品を含むブログ (4件) を見る多変量かつ非正規デ…
ぶっちゃけ今更感がなくもないんですが、実はこれまで自分ではほとんど異常検知・変化検知をゴリゴリやったことがなかったなぁと思ったのでした。きっかけは、時々色々な手法のテストに使っているこのUCI機械学習リポジトリのデータセット。 UCI Machine Lea…
気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。…
この記事は以下の記事の続きです。機械学習分類器で算出した傾向スコアを調整する話ですが、最後に課題として残ったのがprobability calibrationによる実践。探してみると前回の記事でもやったisotonic regressionとか色々出てくるんですが、もう一つ出てく…
先日Japan.R 2016に大学時代の先輩*1を案内がてら参加したんですが、休憩時間に技術評論社のTさんがご恵贈くださったのがこちらの本。コンピューターで「脳」がつくれるか作者: 五木田和也,青木健太郎出版社/メーカー: 技術評論社発売日: 2016/09/27メディア…
この記事は以下の記事の続きです。ご覧の通り、機械学習分類器3種で傾向スコアを算出してみたらおかしな結果になったわけです。この点について、実は後日2点ほどコメントをいただきました。1つはブコメで、 統計的因果推論(3): 傾向スコア算出を機械学習に置…