Pythonでデータ分析を行うのに欠かせないのが、NumPy、pandas、Matplotlibの3つのライブラリです。今回はこの3つをpipでインストールする方法を紹介します。
以前は、この3つをWindowsマシンにインストールするのは大変でした。カリフォルニア大学のチームが公開しているバイナリパッケージ のお陰で何とかなっていました。またはAnaconda の導入を検討していました。
しかし、近年PyPIでの配布形式が改善され、全く苦労しないでpipでインストールできるようになりました。これでAnacondaに頼らないで済めば、pipだけでパッケージを管理できます。
そこで、今回はAnacondaではなくpipでこの3つのライブラリをインストールします。Anacondaは便利ですが容量も大きい(要5GB!)ので「NumPy + pandas + Matplotlib + α」で十分という場合にぜひ参考にしてください。
本記事の目次
インストールの手順
以下のように、pandasとMatplotlibは、NumPyに依存するので、まず最初にNumPyをインストールします。依存関係はpip showで調べられます。
依存ライブラリは一緒にインストールされるので、NumPyを単独でインストールする必要はありませんが、NumPyがないとどちらも利用できないので、確認する意味でも最初に行います。
依存ライブラリ一覧
ライブラリ名 | 今回のインストールVer. | 依存ライブラリ(Requires) |
---|---|---|
NumPy | 1.16.4 | ーー |
pandas | 0.25.0 | numpy, python-dateutil, pytz |
Matplotlib | 3.1.1 | cycler, numpy, kiwisolver, python-dateutil, pyparsing |
NumPyの後に、pandasとMatplotlibをインストールし、最後にpandasがエクセルファイルの読み書きエンジンとして用いるOpenPyXlとxlrdをインストールします。
インストールの手順は以下の通りとなります。なお、今回はpipを用いてインストールするので、一番最初にpip自体をアップグレードしておきます。
インストールの手順
- pip自体のアップグレード
- NumPyのインストール
- pandasのインストール
- Matplotlibのインストール
- その他のライブラリ(OpenPyXL、xlrd)のインストール
pip自体のアップグレード
インストールに用いるpip
自体は頻繁に更新されていますので、まずアップグレードしておきます。以下のコマンドを実行します。
C:¥Users¥Ichiro> py -m pip install -U pip
NumPyのインストール
NumPyのインストールは、以下のコマンドを実行します。
C:¥Users¥Ichiro> py -m pip install numpy
上記のように「WARNING: The script f2py.exe is installed in 〜」と警告が表示されますが、何もしないで大丈夫です。
f2py.exeとは、FORTRANのコードをPythonで使えるようにするプログラムです。通常使うことはありませんが、警告内容のようにPATHを通さなくてもpy -m numpy.f2py
で呼び出せます。
新しいPythonがリリースされたばかりのエラーについて
新しいバージョンのPythonがリリースされたばかりで、まだNumPyのビルド済みのダウンロードファイルが準備されていない場合は、「Microsoft Visual C++ 14.0」がパソコンにインストールされてないとNumPyのインストールはエラーになります。そのときは、一つ前のバージョンのPython(例えば、最新が3.9
の場合は3.8
)を使用するのが簡単です。
pandasのインストール
pandasのインストールは、以下のコマンドを実行します。
C:¥Users¥Ichiro> py -m pip install pandas
Matplotlibのインストール
Matplotlibのインストールは、以下のコマンドを実行します。
C:¥Users¥Ichiro> py -m pip install matplotlib
その他のライブラリのインストール
pandasでエクセルファイルを読み書きできるように、OpenPyXLとxlrdをインストールします。読み込みには xlrd、xlsx
形式の書き込みには OpenPyXL が利用されます。
xls
形式で書き込むには xlwt というライブラリが必要ですが、特別な理由がない限り古い形式で書き込む機会はないので、ここではインストールしません。
pandas 0.25.0 からはOpenPyXLだけでも読み書きできます
まだデフォルトでは読み込みに xlrd を用いますが、以下のように指定すれば OpenPyXL で読み込みできますので、xlsx形式のファイルのみを使用するならば xlrd をインストールしなくても大丈夫です。
pd.read_excel("hoge.xlsx", engine="openpyxl")
※ 将来的にはOpenPyXLが読み込みのデフォルトになるそうです 。
OpenPyXLのインストール
OpenPyXLのインストールは、以下のコマンドを実行します。
C:¥Users¥Ichiro> py -m pip install openpyxl
xlrdのインストール
xlrdのインストールは、以下のコマンドを実行します。
C:¥Users¥Ichiro> py -m pip install xlrd