対象読者

    • 大きなCSV(エクセルで扱えない 100万行以上)をすぐに扱いたい

 

    • jupyter(発音は、ジュパイターか、ジュピター)notebook の言葉を知らなかった

 

    • データ分析のプログラムを簡単に共有したい

Kaggleの分析(kernel)を手元でも自由に試したい
有名どころが使っているツールで、インストールが簡単で、すぐに役立つものをつかってみたい。

対象読者の想定スキル

    • エクセルで、簡単なVBAをつかったことがある。(マクロの記録を改造程度)

 

    とりあえず、英語のページは読める

記事の趣旨

自分で使ってみて便利だったので、多くの人に使ってもらいたい。

jupyter notebook とは、

一言でいうと、コードも動くドキュメント(ノート)です。

実際にどんなものか見てもらうのがいいでしょう。
kaggle にアップしてある。貿易統計(税関別)
を見てください。

ただ、プログラムを解説してあるだけのようにも見えますが、実際に動きます。
ポイントは、分割してプログラムを作動させることができるところです。
特にデータを扱っている場合には、ちょっと動かしてみて、何かするというのが多いので、便利です。

jupyter notebook は、kaggle の標準仕様
kaggle は、データサイエンティストが腕試しをする場でもありますが、このように、誰でもデータをプログラム付きで公開できる場でもあります。jupyter notebook は、kaggle の公開用プログラムの標準仕様です。多くの人が、jupyter notebook でプログラムを公開しています。

kaggleで、dataと一緒に、簡単に公開可能
kaggle をつかうと、データ公開ができます。500メガまでのファイル公開でき、また、結構使いがってがいいです。データサイエンティスト用の無料のサービスは、他にもあります。IBM,Microsoft のが有名です。

    • IBM

 

    Microsoft

ファイル公開は、この2つでもできるようですが、簡単ではないです。もちろん、jupyter notebook を標準で使えます。但し、残念ながら、作成した、notebook をまったく改変せずに手元で動かすことは難しいです。

それに、データ公開することを、kaggle 自体もすすめています。
政府機関のデータ公開の例もあります。2013 American Community Survey

jupyter notebook は大手も使っている

jupyter公式サイト
を見ればわかりますが、使用ユーザの名前の中に、IBM,Microsoft,Google があります。この記事を書いている時点では、日本の会社はこの中にはありません。

windows でも簡単に使える

Anaconda というパッケージをいれると、windows でも簡単に動きます。
Mac,Ubuntu でももちろん動きます。インストール方法は、jupyter anaconda インストールなどと検索すれば、いくつも見つかります。

kaggle のデータと、スクリプトを変更なしに使いたい場合は、ディレクトリをあわせます。
こんな感じです。

適当 --|--input  ここに kaggle から落としてきたデータをおきます。
      |--note (ここに notebook をおきます)

ちょっと面倒なのは、
kaggle のデータと、notebook の入手です。kaggle に、アカウントを登録する必要があります。

广告
将在 10 秒后关闭
bannerAds