【簡単】Pythonのstatsmodelsで重回帰分析を行う方法

Pythonで重回帰分析を行いたい場合、次の二つが候補になります。

scikit-learn
statsmodels

実際、それぞれを用いた記事が検索でも出てきます。
scikit-learnで重回帰分析を説明している記事。
statsmodelsで重回帰分析を説明している記事。

正直、混乱しませんか？
私は、混乱しました。

結論を言うと、scikit-learnでもstatsmodelsでも線形回帰の重回帰分析は可能です。
極端な話、両方使ってもいいのです。
ケースに応じて使い分けるでもいいでしょう。

そこで、本記事ではstatsmodelsの導入から利用まで解説していきます。
使う使わないに関係なく、知っておいて損はないと思います。

本記事の内容

Pythonのstatsmodelsで重回帰分析を行うための環境
Pythonのstatsmodelsで重回帰分析を行う
scikit-learnとstatsmodelsの分析結果を比べる
Pythonのstatsmodelsで重回帰分析を行う方法のまとめ

なお、scikit-learnの導入から利用に関しては以下の記事で解説しています。

それでは、まずはPythonのstatsmodelsで重回帰分析を行うための環境の説明からです。

Pythonのstatsmodelsで重回帰分析を行うための環境

Windows 10 Home （バージョン1909）※以下の説明は64bit前提
Python 3.7.3
NumPy 1.18.5
Pandas 0.24.2
Matplotlib 3.2.1
statsmodels 0.11.1
scikit-learn 0.20.3

Pythonの上記ライブラリは、すべてインストールしておいてください。
scikit-learnは、データの標準化で利用します。

インストールコマンドを載せておきます。
statsmodelsの前提となるライブラリなどは適宜インストールしてください。

pip install numpy
pip install matplotlib
pip install pandas
pip install statsmodels
pip install scikit-learn

Matplotlibのグラフで日本語が文字化けする場合は、以下の記事をご覧ください。
この記事を参考にすれば、文字化けが解消できます。

環境の説明は、以上です。

Pythonのstatsmodelsで重回帰分析を行う

重回帰分析の対象データは、次の記事で用いたデータを利用します。
以下の記事内で「city_info.csv」へのリンクがあります。
そこから、ダウンロードしてください。

上の記事と同じ内容の分析を行います。
「議員報酬が、次の項目により予測できるかどうか？」です。

次の項目とは、「city_info.csv」にある項目です。

都道府県
財政力指数
歳入
人口
面積
人口密度

この場合では、議員報酬が目的変数です。
そして、上記の項目が説明変数となります。

なお、「city_info.csv」は以下のページのデータをもとに作成しています。
https://senkyo-local.info/m_ranking/
https://senkyo-local.info/f_ranking/

では、実際にこのデータを用いて、statsmodelsで重回帰分析を行っていきましょう。

データを準備する

city_info.csvをダウンロードしていない方は、ダウンロードしてください。
city_info.csvの内容（最初の5行）は、以下。

都道府県は、「北海道」という文字のままでは重回帰分析ができません。
そのため、都道府県コードに変更しています。

モジュール読み込み

statsmodelsを用いて重回帰分析を行います。
そのために必要なモジュールをimportします。

import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler

データ読み込み

DataFrame （データフレーム）として、読み込みます。
scikit-learnで重回帰分析した際と同じです。

# csv読み込み
df = pd.read_csv('./data/city_info.csv')

データを標準化する

基本的に、データを標準化することは必須と考えましょう。
適切な分析を行うには、必須だということです。

# 標準化
scaler = StandardScaler()
scaler.fit(np.array(df))
df_std = scaler.transform(np.array(df))
df_std = pd.DataFrame(df_std,columns=df.columns)

データの標準化については、次の記事で詳しく説明しています。
興味のある方は、そちらをご覧ください。

目的変数と説明変数を用意する

データフレームから抽出しています。
ここもscikit-learnで重回帰分析した際と同じように抽出します。

# 目的変数(Y)
Y = np.array(df_std['annual_income'])

# 説明変数(X)
col_name = ['prefecture_id', 'population', 'area', 'population_density', 'fiscal_index', 'revenue']
# 全要素が1.0の列を説明変数の先頭に追加(おまじない)
X = sm.add_constant(df_std[col_name])
X = np.array(X)

重回帰分析を実行する

scikit-learnも同じですが、たったこれだけで重回帰分析が可能です。
同じく、ライブラリ・モジュールの作成者に感謝です。

# モデルの設定(OLS：最小二乗法を指定)
model = sm.OLS(Y, X)

# 回帰分析の実行
results = model.fit()

分析結果を確認する

scikit-learnとは異なり、statsmodelsは結果の要約を作成してくれます。
以下のコードで確認できます。

# 結果の詳細を表示
print(results.summary())

ここまでのコードをまとめています。

import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler

# csv読み込み
df = pd.read_csv('./data/city_info.csv')

# 標準化
scaler = StandardScaler()
scaler.fit(np.array(df))
df_std = scaler.transform(np.array(df))
df_std = pd.DataFrame(df_std,columns=df.columns)

# 目的変数(Y)
Y = np.array(df_std['annual_income'])

# 説明変数(X)
col_name = ['prefecture_id', 'population', 'area', 'population_density', 'fiscal_index', 'revenue']
# 全要素が1.0の列を説明変数の先頭に追加(おまじない)
X = sm.add_constant(df_std[col_name])
X = np.array(X)

# モデルの設定(OLS:最小二乗法を指定)
model = sm.OLS(Y, X)

# 回帰分析の実行
results = model.fit()

# 結果の詳細を表示
print(results.summary())

このコードの実行結果は、以下。

レポート形式で表示されます。
この部分では、scikit-learnよりstatsmodelsの方が優秀ですね。

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.728
Model:                            OLS   Adj. R-squared:                  0.726
Method:                 Least Squares   F-statistic:                     359.7
Date:                Tue, 23 Jun 2020   Prob (F-statistic):          2.85e-224
Time:                        12:05:25   Log-Likelihood:                -626.47
No. Observations:                 815   AIC:                             1267.
Df Residuals:                     808   BIC:                             1300.
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const      -1.735e-16      0.018  -9.45e-15      1.000      -0.036       0.036
x1             0.0777      0.019      4.039      0.000       0.040       0.115
x2             1.2535      0.101     12.373      0.000       1.055       1.452
x3             0.1405      0.022      6.292      0.000       0.097       0.184
x4             0.2791      0.023     12.365      0.000       0.235       0.323
x5             0.2963      0.023     13.106      0.000       0.252       0.341
x6            -0.7372      0.098     -7.538      0.000      -0.929      -0.545
==============================================================================
Omnibus:                      101.361   Durbin-Watson:                   1.043
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              947.359
Skew:                          -0.001   Prob(JB):                    1.92e-206
Kurtosis:                       8.282   Cond. No.                         11.7
==============================================================================


Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

とりあえず、statsmodelsで重回帰分析ができました。
コード量と書き方を比べると、scikit-learnとstatsmodelsでは遜色はありません。

おまじない「sm.add_constant」が、若干手間なだけですね。
でも、どちらかの優劣を語れるほどの材料ではありません。

では、次以降では分析結果を比べていきます。

scikit-learnとstatsmodelsの分析結果を比べる

重回帰分析の結果において、ポイントは以下。

回帰係数
決定係数

これらの値を比較していきます。

回帰係数

statsmodelsのサマリーレポートでは、col_nameではなくX1などで表示されています。
X1はindex=0、X2はindex=1というように置き換えています。

	col_name	scikit-learn	statsmodels
5	revenue	-0.4354990372	-0.7372
0	prefecture_id	0.07687798468	0.0777
2	area	0.1542165142	0.1405
3	population_density	0.3037167989	0.2791
4	fiscal_index	0.3292135998	0.2963
1	population	0.9646640639	1.2535

目的変数（議員報酬）に与える影響度の順番は、一致しました。
また、それぞれの値はほぼ同じと言えるでしょう。
scikit-learnでの分析と同じように、statsmodelsでも同じ結論です。

population（人口）が、目的変数（議員報酬）に最も影響を与えています。
そして、revenue（歳入）は、もっとも影響を与えていません。
むしろ、revenueは説明変数から除外した方がよいかもしれません。

決定係数

決定係数は、その回帰分析の精度を表す指標でした。
一般的に言われている目安は以下。

目安その１

決定係数	精度
0.9以上	非常によい
0.7以上0.9未満	よい
0.5以上0.7未満	あまりよくない
0.5未満	悪い

目安その２

決定係数	精度
0.8以上	良い
0.5以上0.8未満	やや良い
0.5未満	良くない

最低でも0.5以上は、必要ということがわかります。
0.7以上あれば、合格と言えそうですね。

	scikit-learn	statsmodels
通常の (自由度未調整) 決定係数	0.7270440949040748	0.728
自由度調整済み決定係数	なし（※）	0.726

（※）自分で計算して求めれば、算出可能。

通常の決定係数は、ほぼ同じになります。
statsmodelsにだけ、自由度調整済み決定係数が表示されるようです。
表示というか、学習した時点で算出されているという方が正確ですね。

分析の結果としては、決定係数がstatsmodelsでも0.7以上です。
よって、目安からすると「よい」結果になります。
つまり、議員報酬を「よい」精度で予測できると言えます。

自由度調整済み決定係数も0.7以上となります。
なお、自由度調整済み決定係数とは、辛めの評価をした決定係数のことです。

Pythonのstatsmodelsで重回帰分析を行う方法のまとめ

scikit-learnとstatsmodelsを比較してきました。
コーディングする側面と機能面をメインにした比較です。

コーディングの面では、それほど変わりありません。
scikit-learnとstatsmodelsのどちらも同じぐらいです。

機能面では、次の点で違いがでました。
他にもあると思いますが、今回明確になった違いは以下の二つです。

statsmodelsではレポート形式で結果が表示される
statsmodelsでは自由度調整済み決定係数が算出される

ただ、scikit-learnでもロジックを組んで自由度調整済み決定係数を算出することは可能です。
そういう関数を一つ用意すれば、この差は大きいモノではありません。

また、レポート形式も同じように関数を作成すれば終わりです。
そう考えれば、scikit-learnとstatsmodelsの間に致命的な差はありません。

ただ、複雑な分析をしたい場合は事情が異なるかもしれません。
最小二乗法は基本中の基本です。

statsmodelsにしか存在しない分析手法があるということもあり得ます。
逆に、scikit-learnにしか存在しない分析手法があることも想定されます。

よって、最終的に言えることは以下となります。
「scikit-learnとstatsmodelsを使い分ける」です。

どちらも利用するのに、それほど学習コストが必要ではありません。
比較的簡単に利用できます。

もっと言えば、両方で分析すればいいのです。
そして、今回のように結果を比較します。
そうすれば、分析の検証にもなります。