渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答

f:id:TJO:20190625130900p:plain
(Background image by Pixabay)

最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。


言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然ながら趣味嗜好がありますので、個々人が好みだと思う方を使えば良い話ではあります。


とは言え、僕自身もクソコードの羅列ながらこのブログにR & Pythonのコードを載せているということもあるので、便乗して今回の記事では僕個人の意見と感想も書いてみようと思います。いつもながらど素人の意見(特にPythonは本業ではない)なのと、自分がメインに使っているRでもtidyverseをほとんど使わないなど割とout-of-dateな使い方をしているということもあり、読んでいておかしなところなどあればどしどしご指摘くださると有難いですm(_ _)m

続きを読む

データサイエンティストがやらかしがちな過ちトップ10(海外記事紹介)

f:id:TJO:20190613213540p:plain
(Image by Pixabay)

"Top 10 Statistics Mistakes Made by Data Scientists"という刺激的なタイトルの記事が出ているのをKDnuggets経由で知りました。「データサイエンティストがやらかしがちな統計学的な誤りトップ10」ということで、いかにもなあるある事例が色々載っていて面白いです。


ということで、今回はこの記事を全訳にならない範囲で抄訳して、その内容を吟味してみようと思います(直訳しても意味が取りづらい箇所が多かったためかなりの部分を抄訳ながら意訳しています:こういう訳の方が良いなどのコメントあれば是非お寄せください)。言わずもがなですが、こういう海外記事紹介をやる時はネタ切れということです、悪しからず。。。

続きを読む

AutoML Natural Languageで青空文庫に収録された作家8名の文章を分類してみる


先日の記事ではAutoML Tablesを試してみましたが、調子に乗ってこれまで触ってこなかったAutoML Natural Languageも試してみようと思ったのでした。


以前の記事にも書いたように、僕は元々自然言語処理が苦手でTensorFlow Hubのpre-trained modelによるfine-tuningが登場するまでは殆ど自分ではテキスト分析をやったことがなく、出来ればもっとずっと簡単にやれる方法はないのかなと思っていました。そういう意味ではTF-Hubは渡りに船だったんですが、何ならノンプログラミングでサクサク回せた方がずっと良いわけで、AutoML Natural Languageはまさに僕にとっては願ったり叶ったりのプロダクトです。ということで、実際に触ってみたのでそのレポートをつらつら書いてみようと思います。



ちなみに、実はこちらの記事が公開されると知らずに今回の記事を書いていたので、内容が似通っているのは完全に単なる偶然である旨予めお断りしておきます。またいつもながら生半可な知識で適当にやっているだけですので、おかしなところや正した方が良い点を見つけたらどしどしご指摘くださいm(_ _)m

続きを読む