機械学習やデータ分析を学ぶには、まずは参考書から始めるのが一般的です。そして、学習を始めるために、自分のパソコンに環境を構築します。そこで、多くの書籍ではAnacondaのインストールを薦めています。確かに必要なライブラリがすぐに使える状態になるので便利です。
しかし、Google Colaboratory(略称:Colab)を利用すれば、学習のための環境構築の手間はゼロになります。自分のパソコンに何もインストールする必要はありません。いきなり本題の学習に入れます。
Google Colaboratoryは、グーグルが「機械学習の教育、研究を目的として開発したツール」です。Googleアカウントだけで無料でJupyter Notebook環境を使えます。
Python自体の学習ではインタラクティブシェル(対話モード)を用いましたが、機械学習やデータ分析の学習ではグラフもインタラクティブに出力できるJupyter Notebookをよく用います。多くの参考書でもJupyter Notebookを使って説明しています。
どのような分野の勉強でも、準備で時間をかけたり満足しないで、すぐに本題に取り掛かることが重要です。それが最後まで挫折せず継続するコツです。今回は、Google Colaboratoryですぐに学習を始める方法を説明します。
この記事の目次
- Google Colaboratoryの始め方
- 書籍のサンプルファイルをアップロードする方法
- アップロードしたサンプルファイルを読み込む方法
- 本とGoogle Colaboratoryでコラボして学ぶ!
- 最後に
Google Colaboratoryの始め方
Google Colaboratoryを始めるには、以下のサイトにアクセスして、Googleアカウントでログインするだけです。
1. 新しいノートブックの作成
Google Colaboratoryでは、Jupyter Notebookと同じくノートブック形式で記録しながらプログラムを実行します。作成したノートブックは拡張子がipynb
のファイルとして保存します。
ノートブックは最初に作成しておき、作業しながら上書きします。ログインが完了すると以下のようなダイアログが表示されるので、PYTHON3の新しいノートブックをクリックします。
または、以下のファイルメニューからPython3の新しいノートブックを選択します。
新しいノートブックが作成されると、以下のような画面が表示されます。
最初のファイル名は自動的にUntitled0.ipynb
となるので、以下のように左上のファイル名の部分を選択すると変更できるようになります。
2. コードの実行方法
コードはコードセル(code cell)に入力します。お決まりのprint("Hello, World!")
と入力してみます。
入力したらShift + Enterを押すと、コードが実行されて、次のセルに移動します。
セルを移動しないで、コードの実行のみ行う場合は、Ctrl + Enterを押します。
セルの操作
セルの移動は、上下キー(▲、▼)で行います。セルの削除は、Ctrl + M + Dで行えます。
プリインストールされているライブラリ
Google Colaboratoryにインストールされているライブラリは、コードセルで以下のコマンドを実行すると確認できます。SciPy、NumPy、Pandas、Matplotlabなどのデータを扱うのに必須のライブラリの他に、scikit-learn、TensorFlow、Kerasのようにディープラーニングを含む機械学習ライブラリも最初からインストールされています。これだけたくさんあれば、通常は何も追加しなくて大丈夫です。
!pip list
書籍のサンプルファイルをアップロードする方法
演習用データなど書籍のサンプルファイルを用いる場合には、Google Colaboratoryにアップロードしてからプログラムで読み込みます。
まず左側にあるつまみの部分をクリックしてメニューを表示します。
メニューから、「❶ファイル」タブを選択し、「❷sample_dataフォルダ」で右クリックして、メニューから「❸アップロード」を選択します。
すると一般的なファイル選択ダイアログが表示されるので、アップロードするファイルを選択すればアップロードされます。
「sample_dataフォルダ」を展開すると、以下のようにアップロードしたファイルを確認できます。
削除されても大丈夫なファイルだけここにアップロードしてください
アップロード時に以下のダイアログで警告されるように、ここにアップロードしたファイルは割り当てられている仮想マシンのランタイムをリセットした時には削除されます。サンプルファイルのように、再度入手可能なファイルだけアップロードするようにしてください。
削除されないようにするには、Google Driveに保存して、そこから読み込みます。方法は以下の公式サイトに説明がありますが、若干手間がかかるのでサンプルファイルは上記の方法が簡単でオススメです。
アップロードしたサンプルファイルを読み込む方法
例えば、数学の学び直しにオススメの書籍「Pythonで学び直す高校数学」では、CSVファイルをサンプルデータに用いています。上記でアップロードしたonigiri.csv
などは、この書籍のサンプルファイルです。
「sample_dataフォルダ」にアップロードしたonigiri.csv
をプログラムで読み込むには、パスを以下の"sample_data/onigiri.csv"
のように指定します。
上記の「Pythonで学び直す高校数学」のp.261
のリストの通りに、度数分布図(ヒストグラム)を描画すると以下のようになります。
カレントディレクトリの確認
デフォルトのカレントディレクトリは、以下のように「contentディレクトリ」に設定されています。「sample_dataフォルダ」はその中にあります。
!pwd
のようにシステムコマンドを実行する時は、先頭に!
を付けます。
本とGoogle Colaboratoryでコラボして学ぶ!
データ分析から機械学習までしっかり学ぶには、評判の「Pythonデータサイエンスハンドブック」がオススメです。
実はこの書籍の内容は、英語になりますが、著者のgithubサイトで公開されています。
Python Data Science Handbook : Jake VanderPlas
このサイトのページには、以下のように「Open in Colab」というボタンが配置されています。ここをクリックするとGoogle Colaboratoryでノートブックを開くことができます(下の画像をクリックすると実際に確認できます)。
ノートブックが開いたら、以下のドライブにコピーをクリックすると、自分のドライブにコピーしてから開くことができます。これで、コードセルを実行できるようになります。
日本語版の書籍を手元において、実際にGoogle Colaboratory上でコードを動かしながら学習できます。本来は自分の手ですべて入力するのが理想的ですが、全体をまず一通り学習したい時は十分に活用できます。
最後に
ディープラーニングを含む機械学習を動かす環境は、本当に身近になりました。小規模なチームだけでなく、個人レベルでも十分に動かせます。そんな中でもGoogle Colaboratoryは格別です。是非本記事を参考に学びはじめてみてください!
Google Colaboratory を使って以下のような画像生成AIにもチャレンジできます。