対象読者
-
- 大きなCSV(エクセルで扱えない 100万行以上)をすぐに扱いたい
-
- jupyter(発音は、ジュパイターか、ジュピター)notebook の言葉を知らなかった
-
- データ分析のプログラムを簡単に共有したい
Kaggleの分析(kernel)を手元でも自由に試したい
有名どころが使っているツールで、インストールが簡単で、すぐに役立つものをつかってみたい。
対象読者の想定スキル
-
- エクセルで、簡単なVBAをつかったことがある。(マクロの記録を改造程度)
- とりあえず、英語のページは読める
記事の趣旨
自分で使ってみて便利だったので、多くの人に使ってもらいたい。
jupyter notebook とは、
一言でいうと、コードも動くドキュメント(ノート)です。
実際にどんなものか見てもらうのがいいでしょう。
kaggle にアップしてある。貿易統計(税関別)
を見てください。
ただ、プログラムを解説してあるだけのようにも見えますが、実際に動きます。
ポイントは、分割してプログラムを作動させることができるところです。
特にデータを扱っている場合には、ちょっと動かしてみて、何かするというのが多いので、便利です。
jupyter notebook は、kaggle の標準仕様
kaggle は、データサイエンティストが腕試しをする場でもありますが、このように、誰でもデータをプログラム付きで公開できる場でもあります。jupyter notebook は、kaggle の公開用プログラムの標準仕様です。多くの人が、jupyter notebook でプログラムを公開しています。
kaggleで、dataと一緒に、簡単に公開可能
kaggle をつかうと、データ公開ができます。500メガまでのファイル公開でき、また、結構使いがってがいいです。データサイエンティスト用の無料のサービスは、他にもあります。IBM,Microsoft のが有名です。
-
- IBM
- Microsoft
ファイル公開は、この2つでもできるようですが、簡単ではないです。もちろん、jupyter notebook を標準で使えます。但し、残念ながら、作成した、notebook をまったく改変せずに手元で動かすことは難しいです。
それに、データ公開することを、kaggle 自体もすすめています。
政府機関のデータ公開の例もあります。2013 American Community Survey
jupyter notebook は大手も使っている
jupyter公式サイト
を見ればわかりますが、使用ユーザの名前の中に、IBM,Microsoft,Google があります。この記事を書いている時点では、日本の会社はこの中にはありません。
windows でも簡単に使える
Anaconda というパッケージをいれると、windows でも簡単に動きます。
Mac,Ubuntu でももちろん動きます。インストール方法は、jupyter anaconda インストールなどと検索すれば、いくつも見つかります。
kaggle のデータと、スクリプトを変更なしに使いたい場合は、ディレクトリをあわせます。
こんな感じです。
適当 --|--input ここに kaggle から落としてきたデータをおきます。
|--note (ここに notebook をおきます)
ちょっと面倒なのは、
kaggle のデータと、notebook の入手です。kaggle に、アカウントを登録する必要があります。