渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

統計モデリング基礎論続き:データの生成過程に沿った一般化線形モデル vs. 単なる対数線形モデル vs. ガサッと回した線形回帰モデル

これは黒木玄(@)先生の以下のツイートを受けた小ネタです。


元のアイデアとしては、以前の統計モデリングにおける「モデリング手法の選択」談義を踏まえています。

ネタとしては非常に簡単なので、以下にRで書いたコードを並べておきます。冒頭の5つのパラメータと、各種乱数シードを変えれば結果は色々変わるはずです。

続きを読む

データサイエンティスト&機械学習(人工知能)エンジニアのスキル要件と、過熱する人工知能ブームが生み出す狂騒曲と(2018年2月版:追記あり)

f:id:TJO:20180130155202p:plain
(Image by Pixaby)

この記事は去年はてブ1100以上ついてしまった与太記事の続編です。その時はタイトルを読んで字の如く「データサイエンティスト」と「機械学習エンジニア」の満たすべきスキル要件(の2017年版)について考察したものでした。

で、まだ1年しか経ってないのに何でまた引き合いに出したのかというと、最近のメディア報道やニュースリリースの類などを見ていると「データサイエンティストにディープラーニングをやらせる」とか「高度な統計分析のできるエンジニアが必要」みたいなどう見ても色々混同している感のある内容が目に付くので、改めてちょっと自己流に交通整理してみようかなと思ったのでした。

特に、空前の人工知能ブームで「人工知能」の語が人口に膾炙すると同時に2014年頃にブームが終わったはずの「データサイエンティスト」の語が何故か復権してしまい、そこら中のメディアでかつて空回りした前回のブームと同じように濫用されている感があります(上記の5年間振り返り記事でも書きました)。それに伴い、そもそも論としての「ビッグデータ」とか「データ活用」などを取り巻く社会の動きにもかなりの混乱というかカオスが起きているように見受けられます。その辺の事情もちょっと掘り下げながら、ダラダラと論じてみようと思います。

続きを読む

データ分析は「強者の武器」、駆け出しのうちはデータが貯まるまでの間に他にやるべきことがある

f:id:TJO:20180202163807p:plain
(Image by Pixabay)

こんな面白い記事が出回っているのを先日見かけたのですが。


この6年弱のデータ分析業界での個人的な経験や業界内で見聞してきた知見の範囲で言うと、そもそも「データ分析は『強者の武器』であって小さな組織が使っても強い武器にはならない」というのがあると思っています。言い換えると「スタートアップと呼ばれているうちはデータ分析以外のところに注力すべき」ということかと。ということで、その辺の話をざっくり書いてみようかと思います。

続きを読む