Pythonのstatsmodelsを使って多項ロジットモデルを推定する
-How to estimate Multinomial logit using Python-

Pythonのstatsmodelsを使って多項ロジットモデルを推定する
-How to estimate Multinomial logit using Python-

statsmodelsのMNLogit(Multinomial Logit)は、多項ロジットモデルを推定するためのクラスです。多項ロジットモデルは、複数の選択肢の中から1つを選ぶようなケースに適しています。以下に、MNLogitを使用して多項ロジットモデルを推定する基本的なコード例を示します。

import statsmodels.api as sm
import pandas as pd

# ダミーデータ生成
np.random.seed(42)
n = 100
X = np.random.rand(n, 2)
X = sm.add_constant(X)  # 定数項を追加
categories = np.random.choice([0, 1, 2], size=n)  # 3つのカテゴリから選択
df = pd.DataFrame({'Category': categories, 'X1': X[:, 1], 'X2': X[:, 2]})

# MNLogitモデルの推定
model = sm.MNLogit(df['Category'], X)
result = model.fit()

# 結果の表示
print(result.summary())

このコードでは、MNLogitクラスを使用して多項ロジットモデルを推定しています。コードの主な要素は以下の通りです:

  1. X = sm.add_constant(X): 定数項をデータ行列に追加します。
  2. model = sm.MNLogit(df['Category'], X): MNLogitモデルのインスタンスを作成します。目的変数(Category)と説明変数(X)を指定します。
  3. result = model.fit(): モデルをデータに適合させ、推定を実行します。

最後に、summary()メソッドを使用してモデルの結果を表示しています。

このコードはダミーデータを用いているため、実際のデータセットに適用する際は、適切なデータを使用してください。

以下に典型的なresult.summary()の出力の例を示します。これは、モデルの係数、標準誤差、z値、p値などが含まれる典型的なテーブルです。

                          MNLogit Regression Results                          
==============================================================================
Dep. Variable:                   y   No. Observations:                  100
Model:                        MNLogit   Df Residuals:                       90
Method:                           MLE   Df Model:                            6
Date:                Mon, 01 Jan 2023   Pseudo R-squ.:                   0.814
Time:                        12:34:56   Log-Likelihood:                -200.00
converged:                       True   LL-Null:                       -1071.5
Covariance Type:            nonrobust   LLR p-value:                3.101e-381
==============================================================================
y=1       coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
x1        0.1234      0.045      2.750      0.006       0.035       0.211
x2       -0.5678      0.123     -4.620      0.000      -0.809      -0.326
x3        0.9876      0.065     15.165      0.000       0.860       1.115
------------------------------------------------------------------------------
y=2       coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
x1       -0.9876      0.031    -31.765      0.000      -1.048      -0.927
x2        0.4321      0.076      5.709      0.000       0.283       0.581
x3        0.0123      0.025      0.498      0.618      -0.036       0.061
==============================================================================

これは、2つの説明変数(feature1およびfeature2)と目的変数(target)のロジスティック回帰モデルの結果を表しています。各変数の係数、標準誤差、z値、p値などが表示されており、統計的な有意性を評価するのに利用されます。

MNLogit Regression Results は、多項ロジット回帰モデル(MNLogit)の結果の要約を示しています。これは統計モデルの適合度や統計的な有意性などの情報がまとめられています。以下にそれぞれのセクションの主な内容を示します。

  1. Dependent Variable(従属変数):
    • モデルで予測されたいくつかのクラス(カテゴリ)の中から、どのクラスが従属変数として選ばれているかを示します。
  2. Model(モデル):
    • 使用された統計モデルの情報が表示されます。このセクションにはモデルの種類(MNLogit)、推定法(MLE: Maximum Likelihood Estimation)、自由度、使用された説明変数とその数が含まれます。
  3. Method(手法):
    • 推定に使用された最適化手法が表示されます。通常は最尤推定法(MLE)が使われます。
  4. Date(日付):
    • モデルが推定された日時が表示されます。
  5. Time(時間):
    • モデルが推定された具体的な時刻が表示されます。
  6. Converged(収束):
    • 推定が収束したかどうかを示します。True であれば収束しており、False であれば収束しなかったことを示します。
  7. Covariance Type(共分散タイプ):
    • 共分散行列の種類が表示されます。通常は nonrobust(非ロバスト)が使われます。
  8. Number of Observations(観測数):
    • モデルの学習に使用されたデータの総数が表示されます。
  9. Pseudo R-squared(擬似R二乗):
    • モデルの適合度を示す指標で、1に近いほど良いモデルであることを示します。MNLogitモデルでは、対数尤度の改善に基づく指標です。
  10. Log-Likelihood(対数尤度):
    • モデルの対数尤度が表示されます。対数尤度はモデルがデータをどれくらいよく説明しているかを示す指標です。
  11. Covariance Type(共分散タイプ):
    • 推定された係数の共分散行列の種類が表示されます。nonrobust はロバストではない共分散行列を意味します。
  12. LL-Null(Nullモデルの対数尤度):
    • Nullモデル(説明変数がない場合のモデル)の対数尤度が表示されます。モデルがどれだけ改善されているかを示す基準の一部です。
  13. LLR p-value(尤度比検定のp値):
    • 尤度比検定の結果を示します。モデル全体の有意性を判断する指標で、小さな値はモデルが有意であることを示します。

多項ロジットモデルの理論

多項ロジットモデルは、ロジスティック回帰の一般化であり、2つ以上のクラスを持つ離散的なターゲット変数を予測するために使用されます。通常は3つ以上のカテゴリがある場合に利用されます。

多項ロジットモデルでは、各クラス(カテゴリ)ごとに1つの回帰方程式が存在します。クラス数を\(K\)とし、各クラス\(k\)に対する説明変数\(X\)に関する回帰方程式は次のようになります:

\[ P(Y_i = k | X_i) = \frac{e^{X_i \beta_k}}{\sum_{j=1}^{K} e^{X_i \beta_j}} \]

ここで:

  • \(Y_i\)は観測\(i\)におけるターゲット変数(クラスのインデックス)です。
  • \(X_i\)は観測\(i\)における説明変数のベクトルです。
  • \(\beta_k\)はクラス\(k\)に対する回帰係数のベクトルです。

各クラスの確率は指数関数を用いて表現され、これにより確率が全てのクラスで1に等しいように調整されます。これにより各クラスの相対的な確率を求めることができます。

多項ロジットモデルの推定は通常、最尤推定法(MLE)を用いて行われます。MLEは回帰係数を調整し、与えられたデータが観測される確率を最大化します。

多項ロジットモデルの結果の解釈には、各クラスの回帰係数を調べることが一般的です。これらの係数は対数オッズから変換されます。詳細なモデルの解釈や診断は通常、推定されたモデルに対する要約統計や仮説検定を用いて行われます。

にほんブログ村 教育ブログへ
にほんブログ村
インターネット・コンピュータランキング
インターネット・コンピュータランキング
ブログ王ランキングに参加中!
PC関連ランキング
くる天 人気ブログランキング

Pythonのstatsmodelsを使って多項ロジットモデルを推定する
-How to estimate Multinomial logit using Python-
」への1件のフィードバック

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です