2014-01-01から1年間の記事一覧
「もう5年ぐらいいるのかと思った」とか部長から言われるくらいデカい態度で完全に溶け込んでしまっている昨今ですが(汗)、前回の退職エントリの後で今の職場にやってきてから、今日でちょうど1年が経ちました。 ということで、今回の記事ではこの1年間に…
前回の記事では盛大にトレンドつきモデルの式をトレンド累積値でモデリングしないという間抜けなことをしてしまい大変失礼しましたorz さて、階層ベイズモデルでは際限なく色々な要素を足していくことで、果てしなく複雑っぽいモデルを作ることができるわけ…
もう既に山ほど解説記事が出回っていて、あまつさえそれを利用したwebサービスまで出てきてしまっているword2vecですが、うちの現場でも流行っているのでせっかくなので僕もやってみようと思い立ったのでした。 word2vecそのものについては昨年来大量にブロ…
前回の記事からだいぶ経ってしまいましたが、皆様パッケージの使い心地はいかがでしょうか(汗)。ということで、今回はいよいよクラスタリングシリーズの大詰め、混合ディリクレ過程を取り上げます。 今回は僕も完全に理解しているわけではないので、ぶっち…
もうタイトルを読んで字の如しなんですが、要は「統計モデリングってぶっちゃけ何なのよ?」という問題意識が最近非常に局所的ながら影響力の大きいところ*1から出てきておりまして。 で、僕もその議論にマターリ参加しながら「このもやもやしたものをどうや…
このシリーズ記事、全然真面目に事前分布の勉強をしていない人間がStanで無理やりフルベイズをやろうという無謀な代物でございますが、何だかんだで段々佳境に入ってまいりました。 ということで、今回は階層ベイズモデルをこんな感じでやってみましたという…
(※このエントリで述べている内容はあくまでも業界全体の状況を表す一般論であり、弊社をはじめどこか個別の企業を指したものではありません) 最近は技術系のネタばっかりなので、たまにはデータサイエンティスト(死語)にまつわる与太話でもしてみようか…
昨日、下記の研究会から招待講演にお招きに与り、お話してきました。 第7回DCC・第64回EIP合同研究発表会-情報処理学会 「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る from Takashi J Ozaki 内容はまぁ、完全に見た通りです(笑…
教師なし学習シリーズもいよいよ佳境に入ってきましたねー、と言いつつ前回記事から既に2ヶ月半ぐらい経ってますが。。。ここからは主に混合モデルを取り上げていく予定です。今回もはじパタpp.165-174をベースにやっていきます。 はじめてのパターン認識作…
だいぶ間が空いちゃいましたね(汗)。これまでの記事で大体Stanで何ができるか分かったので、ぼちぼちStanらしいことをやってみようと思います。一応過去記事のリスト出しておきますので、良かったら復習も兼ねてお読みください。 Stanで統計モデリングを学…
前回リストの記事から半年ぐらい経ちましたよー、ということで初心者向けに関しても書籍リストをアップデートした最新版のリストをお送りします。あまり中身が変わってないかもしれませんが、かぶっている本は良い本だということで(笑)。 ところで、昨年秋…
さて、前回リストの記事から半年ぐらい経ちましたよーということで、それ以降に発刊された書籍などを吟味した上で更新したリストをお届けしたいと思います。といっても引き続き今回のリストにも入っているものが多いので変わり映えしないかもですが。。。 前…
グローバルTokyoRで何話そうかなー、と思っていたんですがそう言えば主賓がvisualizationの人なんだったっけなぁということで、可視化の話にでもしようかなと。ということで、僕の大好きなネタでもやろうかと思います。 それは、「とにかく{arules} + {aruls…
今日何気なく呟いたツイートが、見ていたら結構RT&favされていた模様で。 社会人が統計学とか機械学習を独習するには、いわゆる「落下傘方式」が良いと思う。必要な時にその項目だけ学んで実践する。その繰り返しで学問体系のマス目が埋まっていけば良し。あ…
実は業務でもStan使い始めてるんですが、まだまだ単位根ありパネルデータの分析に回すなど低レベルなものが多く、無情報事前分布と階層事前分布を巧みに使いこなして華麗にサンプリング。。。なんて夢のまた夢という情けない状況です(泣)。 で、気が付いた…
実は僕は結構頻繁に{arules}パッケージを使うんですが*1、個人的には汎用性を考えて必ず素性ベクトルの形になるようにデータを前処理して読み込むようにしています。例えばこんな感じ。 ビール ソーセージ 牛肉 ... 1 0 1 ... 0 1 0 ... 1 1 1 ... ... ... .…
今まで気付かなかったんですが、@dichikaさんがこんな記事を書かれていたんですね。 ランダムフォレスト雑感 - BOD 実は僕はほとんどconditional inference treesのことを知らなかったのと、ここで紹介されている{party}パッケージが面白そうだったので、そ…
本シリーズ記事のカテゴリからPythonが消えて久しい今日この頃ですが、皆様いかがお過ごしでしょうか*1。とかいう前口上はどうでも良くて、とっとと今回のお題に入りましょう。今回はクラスタリングのド定番、K-means(k平均)クラスタリングです。 K-means…
統計学的検定の話を始めたら自分の勉強の方が止まらなくなってしまったので(笑)、ついでにやってみようと思います。ちなみにこの記事は前回のやたらブクマを集めた記事の続きみたいなものです。 そもそもビジネスの現場ではどういう「レベル」の統計学を使…
「また煽り記事書きやがって」と怒られそうな気しかしないんですが(笑)、最近とみに感じるようになってきていることなので備忘録的にちょっと書いてみます。あ、今回も僕の個人的経験と見聞に基づくポジショントークみたいなものなので、話半分でお願いし…
(前回記事はこちらから) ベイジアンの知識もいい加減な僕がこんなシリーズ記事を書くとかほとんどギャグの領域なんですが(汗)*1、2回目の今回の記事ではそもそもMCMCって何だったっけ?ってところから始めようと思います。 今回参考にするのは、主に久保…
さて、教師あり学習の方はひと段落ついたので、今度は教師なし学習の話をやっていこうかと思います。と言っても僕が知っている範囲でなおかつ常用するような教師なし学習はRでの実装が割と貧弱なので、シリーズとしてはあまり面白くない感じになりそうです(…
先日の合同企業説明会でご来場いただいた就活生の皆さんにこの話題をだいぶ話したので、続きの意も込めてちょっと書いてみようと思います。実はその時お話した内容について、後日データ分析者同士の飲み会を開いた時に色々議論になったもので(笑)、そのフ…
(※Stan v2.4.0以降でインストール方法に若干変更があります!詳しくはこの記事の中ほどをご覧ください) さて、年初の抱負でも語ったように今年はStanを頑張って会得していこうと思います。理由は簡単で、ありったけの要素を詰め込んでMCMCサンプラーでガン…
データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「本当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何と…
思いがけず、ALBERT様からこちらの本をご恵贈たまわりました*1。 ビッグデータの使い方・活かし方―マーケティングにおける活用事例作者: 朝野煕彦出版社/メーカー: 東京図書発売日: 2014/01メディア: 単行本この商品を含むブログを見る いわゆる「ビッグデー…
ところで、どうもレイクタホ周辺は全米に知られるスキーのメッカでありながら日本人には馴染みの薄い観光スポットらしく、あまり日本語の情報がないということのようなので、ついでなので僕がNIPS2013に参加する傍ら観光した話*1を日本語で書いておきます。…
ということで、タイトルの通りで先月の12月第1週~2週にかけて僕はこちらのカンファレンスに参加しておりました。 NIPS : Conferences : 2013 研究者だった時分に僕が根城にしていたのは実験系主体のSFNだったもので、ぶっちゃけアウェー感満載のカンファレ…
このシリーズ記事では、Rで*1色々な機械学習のアルゴリズムについて、それらがどんなものなのかを簡単なデータに対して分離超平面・決定境界を描きながら見てきました。 パッケージユーザーのための機械学習(1):決定木 - 銀座で働くデータサイエンティスト…