Scikit-Learn

wandb を使用すると、わずか数行のコードで scikit-learn モデルのパフォーマンスを可視化し、比較することができます。例を試す →

はじめに

サインアップして APIキーを作成する

APIキーは、使用しているマシンを W&B に対して認証します。ユーザープロファイルから APIキーを生成できます。

For a more streamlined approach, create an API key by going directly to User Settings. Copy the newly created API key immediately and save it in a secure location such as a password manager.

右上隅にあるユーザープロファイルアイコンをクリックします。
User Settings を選択し、API Keys セクションまでスクロールします。

`wandb` ライブラリのインストールとログイン

ローカルに wandb ライブラリをインストールしてログインするには：

Command Line
Python
Python notebook

WANDB_API_KEY 環境変数に APIキーを設定します。
```
export WANDB_API_KEY=<your_api_key>
```
wandb ライブラリをインストールしてログインします。
```
pip install wandb

wandb login
```

pip install wandb

import wandb
wandb.login()

!pip install wandb

import wandb
wandb.login()

メトリクスのログ記録

import wandb

wandb.init(project="visualize-sklearn") as run:

  y_pred = clf.predict(X_test)
  accuracy = sklearn.metrics.accuracy_score(y_true, y_pred)

  # 時系列でメトリクスをログ記録する場合は run.log を使用します
  run.log({"accuracy": accuracy})

  # または、トレーニングの最後に最終的なメトリクスをログ記録する場合は run.summary も使用できます
  run.summary["accuracy"] = accuracy

プロットの作成

ステップ 1: wandb のインポートと新しい Run の初期化

import wandb

run = wandb.init(project="visualize-sklearn")

ステップ 2: プロットの可視化

個別のプロット

モデルのトレーニングと予測の完了後、wandb でプロットを生成して予測を分析できます。サポートされているチャートの全リストについては、以下の サポートされているプロット セクションを参照してください。

# 単一のプロットを可視化
wandb.sklearn.plot_confusion_matrix(y_true, y_pred, labels)

すべてのプロット

W&B には、関連する複数のプロットを一度に描画する plot_classifier などの関数があります。

# すべての分類プロットを可視化
wandb.sklearn.plot_classifier(
    clf,
    X_train,
    X_test,
    y_train,
    y_test,
    y_pred,
    y_probas,
    labels,
    model_name="SVC",
    feature_names=None,
)

# すべての回帰プロット
wandb.sklearn.plot_regressor(reg, X_train, X_test, y_train, y_test, model_name="Ridge")

# すべてのクラスタープロット
wandb.sklearn.plot_clusterer(
    kmeans, X_train, cluster_labels, labels=None, model_name="KMeans"
)

run.finish()

既存の Matplotlib プロット

Matplotlib で作成されたプロットも W&B ダッシュボードにログ記録できます。そのためには、まず plotly をインストールする必要があります。

pip install plotly

最後に、以下のようにプロットを W&B のダッシュボードにログ記録できます。

import matplotlib.pyplot as plt
import wandb

with wandb.init(project="visualize-sklearn") as run:

  # ここで plt.plot() や plt.scatter() などをすべて行います
  # ...

  # plt.show() の代わりに以下を実行します：
  run.log({"plot": plt})

サポートされているプロット

学習曲線 (Learning curve)

さまざまな長さのデータセットでモデルをトレーニングし、トレーニングセットとテストセットの両方について、クロスバリデーションスコア対データセットサイズのプロットを生成します。 wandb.sklearn.plot_learning_curve(model, X, y)

model (clf または reg): フィット済みの回帰器または分類器を指定します。
X (arr): データセットの特徴量。
y (arr): データセットのラベル。

ROC

ROC曲線は、真陽性率 (y軸) 対偽陽性率 (x-axis) をプロットします。理想的なスコアは、左上の点である TPR = 1 かつ FPR = 0 です。通常、ROC曲線下の面積 (AUC-ROC) を計算し、AUC-ROC が大きいほど優れた結果となります。 wandb.sklearn.plot_roc(y_true, y_probas, labels)

y_true (arr): テストセットのラベル。
y_probas (arr): テストセットの予測確率。
labels (list): ターゲット変数 (y) の名前付きラベル。

クラス比率 (Class proportions)

トレーニングセットとテストセットにおけるターゲットクラスの分布をプロットします。不均衡なクラスを検出し、特定のクラスがモデルに不釣り合いな影響を与えていないか確認するのに役立ちます。 wandb.sklearn.plot_class_proportions(y_train, y_test, ['dog', 'cat', 'owl'])

y_train (arr): トレーニングセットのラベル。
y_test (arr): テストセットのラベル。
labels (list): ターゲット変数 (y) の名前付きラベル。

PR曲線 (Precision recall curve)

異なる閾値における精度 (precision) と再現率 (recall) のトレードオフを計算します。曲線下の面積が大きいことは、高い再現率と高い精度の両方を表します。高い精度は低い偽陽性率に関連し、高い再現率は低い偽陰性率に関連します。両方のスコアが高いことは、分類器が正確な結果を返しており (高精度)、かつ全陽性結果の大部分を返している (高再現率) ことを示します。PR曲線はクラスが非常に不均衡な場合に有用です。 wandb.sklearn.plot_precision_recall(y_true, y_probas, labels)

y_true (arr): テストセットのラベル。
y_probas (arr): テストセットの予測確率。
labels (list): ターゲット変数 (y) の名前付きラベル。

特徴量重要度 (Feature importances)

分類タスクにおける各特徴量の重要度を評価し、プロットします。ツリーのように feature_importances_ 属性を持つ分類器でのみ機能します。 wandb.sklearn.plot_feature_importances(model, ['width', 'height, 'length'])

model (clf): フィット済みの分類器を指定します。
feature_names (list): 特徴量の名前。特徴量のインデックスを対応する名前に置き換えることで、プロットを読みやすくします。

検証曲線 (Calibration curve)

分類器の予測確率がどの程度適切に校正されているか、および校正されていない分類器をどのように校正するかをプロットします。ベースラインのロジスティック回帰モデル、引数として渡されたモデル、およびその等張校正 (isotonic calibration) とシグモイド校正 (sigmoid calibration) の両方による推定予測確率を比較します。検証曲線が対角線に近いほど良好です。転置されたシグモイドのような曲線は過学習した分類器を表し、シグモイドのような曲線は学習不足 (underfitting) の分類器を表します。モデルの等張校正とシグモイド校正をトレーニングしてそれらの曲線を比較することで、モデルが過学習または学習不足であるかどうか、そしてその場合、どちらの校正 (シグモイドまたは等張) がその修正に役立つかを判断できます。詳細については、sklearn のドキュメントを参照してください。 wandb.sklearn.plot_calibration_curve(clf, X, y, 'RandomForestClassifier')

model (clf): フィット済みの分類器を指定します。
X (arr): トレーニングセットの特徴量。
y (arr): トレーニングセットのラベル。
model_name (str): モデル名。デフォルトは ‘Classifier’ です。

混同行列 (Confusion matrix)

分類の正確さを評価するために混同行列を計算します。モデルの予測の質を評価し、モデルが間違えた予測のパターンを見つけるのに役立ちます。対角線は、実際のラベルと予測されたラベルが一致している、モデルが正解した予測を表します。 wandb.sklearn.plot_confusion_matrix(y_true, y_pred, labels)

y_true (arr): テストセットのラベル。
y_pred (arr): テストセットの予測ラベル。
labels (list): ターゲット変数 (y) の名前付きラベル。

サマリーメトリクス (Summary metrics)

分類については、mse、mae、r2 スコアなどのサマリーメトリクスを計算します。
回帰については、f1、正確度 (accuracy)、精度 (precision)、再現率 (recall) などのサマリーメトリクスを計算します。

wandb.sklearn.plot_summary_metrics(model, X_train, y_train, X_test, y_test)

model (clf または reg): フィット済みの回帰器または分類器を指定します。
X (arr): トレーニングセットの特徴量。
y (arr): トレーニングセットのラベル。
- X_test (arr): テストセットの特徴量。
y_test (arr): テストセットのラベル。

エルボー図 (Elbow plot)

クラスターの数の関数として説明される分散の割合を、トレーニング時間とともに測定しプロットします。最適なクラスター数を選択するのに役立ちます。 wandb.sklearn.plot_elbow_curve(model, X_train)

model (clusterer): フィット済みのクラスター器を指定します。
X (arr): トレーニングセットの特徴量。

シルエット図 (Silhouette plot)

あるクラスター内の各点が、隣接するクラスター内の点とどの程度近いかを測定しプロットします。クラスターの厚さはクラスターサイズに対応します。垂直線は、すべての点の平均シルエットスコアを表します。シルエット係数が +1 に近い場合は、サンプルが隣接するクラスターから遠く離れていることを示します。値が 0 の場合は、サンプルが 2 つの隣接するクラスター間の決定境界上または非常に近い場所にあることを示し、負の値はそれらのサンプルが誤ったクラスターに割り当てられた可能性があることを示します。一般的に、すべてのシルエットクラスタースコアが平均以上 (赤線を超える) で、できるだけ 1 に近いことが望ましいです。また、データ内の潜在的なパターンを反映したクラスターサイズが好まれます。 wandb.sklearn.plot_silhouette(model, X_train, ['spam', 'not spam'])

model (clusterer): フィット済みのクラスター器を指定します。
X (arr): トレーニングセットの特徴量。
- cluster_labels (list): クラスターラベルの名前。クラスターインデックスを対応する名前に置き換えることで、プロットを読みやすくします。

外れ値候補プロット (Outlier candidates plot)

クックの距離 (Cook’s distance) を通じて、回帰モデルに対するデータポイントの影響度を測定します。影響度が大きく偏っているインスタンスは、外れ値である可能性があります。外れ値検出に役立ちます。 wandb.sklearn.plot_outlier_candidates(model, X, y)

model (regressor): フィット済みの分類器を指定します。
X (arr): トレーニングセットの特徴量。
y (arr): トレーニングセットのラベル。

残差プロット (Residuals plot)

予測されたターゲット値 (y軸) 対実際のターゲット値と予測されたターゲット値の差 (x軸)、および残差誤差の分布を測定しプロットします。一般的に、適合精度の高いモデルの残差はランダムに分布するはずです。なぜなら、優れたモデルはランダムな誤差を除いて、データセット内のほとんどの現象を説明できるからです。 wandb.sklearn.plot_residuals(model, X, y)

model (regressor): フィット済みの分類器を指定します。
X (arr): トレーニングセットの特徴量。
y (arr): トレーニングセットのラベル。

ご質問がある場合は、Slack コミュニティでぜひお尋ねください。

例

Colab で実行: すぐに始められるシンプルなノートブックです。

Guides

Integrations

Tutorials

Reference

はじめに

サインアップして APIキーを作成する

`wandb` ライブラリのインストールとログイン

メトリクスのログ記録

プロットの作成

ステップ 1: wandb のインポートと新しい Run の初期化

ステップ 2: プロットの可視化

個別のプロット

すべてのプロット

既存の Matplotlib プロット

サポートされているプロット

学習曲線 (Learning curve)

ROC

クラス比率 (Class proportions)

PR曲線 (Precision recall curve)

特徴量重要度 (Feature importances)

検証曲線 (Calibration curve)

混同行列 (Confusion matrix)

サマリーメトリクス (Summary metrics)

エルボー図 (Elbow plot)

シルエット図 (Silhouette plot)

外れ値候補プロット (Outlier candidates plot)

残差プロット (Residuals plot)

例

Guides

Integrations

Tutorials

Reference

​はじめに

​サインアップして APIキー を作成する

​wandb ライブラリのインストールとログイン

​メトリクス の ログ 記録

​プロットの作成

​ステップ 1: wandb のインポートと新しい Run の初期化

​ステップ 2: プロットの可視化

​個別のプロット

​すべてのプロット

​既存の Matplotlib プロット

​サポートされているプロット

​学習曲線 (Learning curve)

​ROC

​クラス比率 (Class proportions)

​PR曲線 (Precision recall curve)

​特徴量重要度 (Feature importances)

​検証曲線 (Calibration curve)

​混同行列 (Confusion matrix)

​サマリーメトリクス (Summary metrics)

​エルボー図 (Elbow plot)

​シルエット図 (Silhouette plot)

​外れ値候補プロット (Outlier candidates plot)

​残差プロット (Residuals plot)

​例

はじめに

サインアップして APIキーを作成する

`wandb` ライブラリのインストールとログイン

メトリクスのログ記録

プロットの作成

ステップ 1: wandb のインポートと新しい Run の初期化

ステップ 2: プロットの可視化

個別のプロット

すべてのプロット

既存の Matplotlib プロット

サポートされているプロット

学習曲線 (Learning curve)

ROC

クラス比率 (Class proportions)

PR曲線 (Precision recall curve)

特徴量重要度 (Feature importances)

検証曲線 (Calibration curve)

混同行列 (Confusion matrix)

サマリーメトリクス (Summary metrics)

エルボー図 (Elbow plot)

シルエット図 (Silhouette plot)

外れ値候補プロット (Outlier candidates plot)

残差プロット (Residuals plot)

例