機械学習データ分析を学ぶには、まずは参考書から始めるのが一般的です。そして、学習を始めるために、自分のパソコンに環境を構築します。そこで、多くの書籍ではAnacondaのインストールを薦めています。確かに必要なライブラリがすぐに使える状態になるので便利です。

しかし、Google Colaboratoryを利用すれば、学習のための環境構築の手間はゼロになります。自分のパソコンに何もインストールする必要はありません。いきなり本題の学習に入れます

Google Colaboratoryは、グーグルが「機械学習の教育、研究を目的として開発したツール」です。Googleアカウントだけ無料でJupyter Notebook環境を使えます。

Python自体の学習ではインタラクティブシェル(対話モード)を用いましたが、機械学習やデータ分析の学習ではグラフもインタラクティブに出力できるJupyter Notebookをよく用います。多くの参考書でもJupyter Notebookを使って説明しています。

どのような分野の勉強でも、準備で時間をかけたり満足しないで、すぐに本題に取り掛かることが重要です。それが最後まで挫折せず継続するコツです。今回は、Google Colaboratoryですぐに学習を始める方法を説明します。

この記事の目次

Google Colaboratoryの始め方

Google Colaboratoryを始めるには、以下のサイトにアクセスして、Googleアカウントでログインするだけです。

Google Colaboratory ホームページ

gco login

1. 新しいノートブックの作成

Google Colaboratoryでは、Jupyter Notebookと同じくノートブック形式で記録しながらプログラムを実行します。作成したノートブックは拡張子がipynbのファイルとして保存します。

ノートブックは最初に作成しておき、作業しながら上書きします。ログインが完了すると以下のようなダイアログが表示されるので、PYTHON3の新しいノートブックをクリックします。

notebook dialog

または、以下のファイルメニューからPython3の新しいノートブックを選択します。

notebook menu

新しいノートブックが作成されると、以下のような画面が表示されます。

notebook window

最初のファイル名は自動的にUntitled0.ipynbとなるので、以下のように左上のファイル名の部分を選択すると変更できるようになります。

notebook filename

2. コードの実行方法

コードはコードセル(code cell)に入力します。お決まりのprint("Hello, World!")と入力してみます。

first notebook

入力したらShift + Enterを押すと、コードが実行されて、次のセルに移動します。

notebook cell move

セルを移動しないで、コードの実行のみ行う場合は、Ctrl + Enterを押します。

セルの操作

セルの移動は、上下キー()で行います。セルの削除は、Ctrl + M + Dで行えます。

プリインストールされているライブラリ

Google Colaboratoryにインストールされているライブラリは、コードセルで以下のコマンドを実行すると確認できます。SciPy、NumPy、Pandas、Matplotlabなどのデータを扱うのに必須のライブラリの他に、scikit-learn、TensorFlow、Kerasのようにディープラーニングを含む機械学習ライブラリも最初からインストールされています。これだけたくさんあれば、通常は何も追加しなくて大丈夫です。

!pip list

書籍のサンプルファイルをアップロードする方法

演習用データなど書籍のサンプルファイルを用いる場合には、Google Colaboratoryにアップロードしてからプログラムで読み込みます。

まず左側にあるつまみの部分をクリックしてメニューを表示します。

notebook tab

メニューから、「ファイル」タブを選択し、「sample_dataフォルダ」で右クリックして、メニューから「アップロード」を選択します。

notebook upload menu

ファイル」タブを選択した時に、以下の画面が表示されたら少し待機してください。自動的にランタイムに接続し、上の画面が表示されます。

すると一般的なファイル選択ダイアログが表示されるので、アップロードするファイルを選択すればアップロードされます。

「sample_dataフォルダ」を展開すると、以下のようにアップロードしたファイルを確認できます。

uploaded files

削除されても大丈夫なファイルだけここにアップロードしてください

アップロード時に以下のダイアログで警告されるように、ここにアップロードしたファイルは割り当てられている仮想マシンのランタイムをリセットした時には削除されますサンプルファイルのように、再度入手可能なファイルだけアップロードするようにしてください。

upload confirm dialog

削除されないようにするには、Google Driveに保存して、そこから読み込みます。方法は以下の公式サイトに説明がありますが、若干手間がかかるのでサンプルファイルは上記の方法が簡単でオススメです。

External data: Drive, Sheets, and Cloud Storage

アップロードしたサンプルファイルを読み込む方法

例えば、数学の学び直しにオススメの書籍「Pythonで学び直す高校数学」では、CSVファイルをサンプルデータに用いています。上記でアップロードしたonigiri.csvなどは、この書籍のサンプルファイルです。

「sample_dataフォルダ」にアップロードしたonigiri.csvをプログラムで読み込むには、パスを以下の"sample_data/onigiri.csv"のように指定します。

select sample data

上記の「Pythonで学び直す高校数学」のp.261のリストの通りに、度数分布図(ヒストグラム)を描画すると以下のようになります。

notebook result

カレントディレクトリの確認

デフォルトのカレントディレクトリは、以下のように「contentディレクトリ」に設定されています。「sample_dataフォルダ」はその中にあります。

!pwdのようにシステムコマンドを実行する時は、先頭に!を付けます。

本とGoogle Colaboratoryでコラボして学ぶ!

データ分析から機械学習までしっかり学ぶには、評判の「Pythonデータサイエンスハンドブック」がオススメです。

実はこの書籍の内容は、英語になりますが、著者のgithubサイトで公開されています。

Python Data Science Handbook : Jake VanderPlas

このサイトのページには、以下のように「Open in Colab」というボタンが配置されています。ここをクリックするとGoogle Colaboratoryでノートブックを開くことができます。

open in colab

ノートブックが開いたら、以下のドライブにコピーをクリックすると、自分のドライブにコピーしてから開くことができます。これで、コードセルを実行できるようになります。

drive copy

日本語版の書籍を手元において、実際にGoogle Colaboratory上でコードを動かしながら学習できます。本来は自分の手ですべて入力するのが理想的ですが、全体をまず一通り学習したい時は十分に活用できます。

最後に

ディープラーニングを含む機械学習を動かす環境は、本当に身近になりました。小規模なチームだけでなく、個人レベルでも十分に動かせます。そんな中でもGoogle Colaboratoryは格別です。是非本記事を参考に学びはじめてみてください!