XGBoost Sweeps

Try in Colab W&B を使用して、機械学習の実験管理、データセットのバージョン管理、そしてプロジェクトでのコラボレーションを実現しましょう。

ツリーベースのモデルから最高のパフォーマンスを引き出すには、適切なハイパーパラメーターの選択が不可欠です。 early_stopping_rounds は何回にすべきか？ツリーの max_depth はどのくらいが適切か？高次元のハイパーパラメーター空間を探索して最もパフォーマンスの高いモデルを見つけ出す作業は、すぐに手に負えなくなることがあります。 Hyperparameter Sweeps は、モデル同士を競わせ、勝者を決定するための整理された効率的な手段を提供します。これは、ハイパーパラメーターの値の組み合わせを自動的に探索し、最適な値を見つけ出すことで実現されます。このチュートリアルでは、W&B を使用して 3 つの簡単なステップで XGBoost モデルに対して高度なハイパーパラメーター探索を実行する方法を説明します。まずは、以下のプロットをチェックしてみてください：

Sweeps: 概要

W&B でハイパーパラメーター探索を実行するのは非常に簡単です。以下の 3 つのステップに従うだけです：

sweep を定義する: どのパラメータを探索するか、どの探索戦略を使用するか、どのメトリクスを最適化するかを指定する辞書形式のオブジェクトを作成します。
sweep を初期化する: 1 行のコードで sweep を初期化し、 sweep configuration の辞書を渡します： sweep_id = wandb.sweep(sweep_config)
sweep agent を実行する: これも 1 行のコードで実行できます。 wandb.agent() を呼び出し、 sweep_id と共に、モデルアーキテクチャーを定義してトレーニングを行う関数を渡します： wandb.agent(sweep_id, function=train)

ハイパーパラメーター探索を実行するために必要な作業はこれだけです。以下のノートブックでは、これら 3 つのステップについて詳しく説明します。このノートブックをフォークして、パラメータを調整したり、自身のデータセットでモデルを試したりすることを強くお勧めします。

リソース

!pip install wandb -qU

import wandb
wandb.login()

1. Sweep を定義する

W&B Sweeps では、わずか数行のコードで、思い通りに sweep を設定するための強力なレバーが提供されます。 sweep 設定は辞書または YAML ファイルとして定義できます。主な設定項目を見ていきましょう：

Metric (メトリクス): これは sweep が最適化しようとする指標です。メトリクスには name ( トレーニングスクリプトでログを記録する名前) と goal (maximize (最大化) または minimize (最小化)) を指定できます。
Search Strategy (探索戦略): "method" キーを使用して指定します。 Sweeps ではいくつかの異なる探索戦略をサポートしています。
Grid Search (グリッド検索): ハイパーパラメーターの値のあらゆる組み合わせを反復します。
Random Search (ランダム検索): ランダムに選択されたハイパーパラメーターの値の組み合わせを反復します。
Bayesian Search (ベイズ探索): ハイパーパラメーターとメトリクススコアの確率をマッピングする確率的モデルを作成し、メトリクスを改善する可能性が高いパラメータを選択します。ベイズ最適化の目的は、ハイパーパラメーターの値の選択により多くの時間をかける代わりに、試行するハイパーパラメーターの値の回数を減らすことにあります。
Parameters (パラメータ): ハイパーパラメーター名と、各反復でその値を取得するための離散値、範囲、または分布を含む辞書です。

詳細については、すべての sweep configuration オプションのリストを参照してください。

sweep_config = {
    "method": "random", # grid または random を試してください
    "metric": {
      "name": "accuracy",
      "goal": "maximize"   
    },
    "parameters": {
        "booster": {
            "values": ["gbtree","gblinear"]
        },
        "max_depth": {
            "values": [3, 6, 9, 12]
        },
        "learning_rate": {
            "values": [0.1, 0.05, 0.2]
        },
        "subsample": {
            "values": [1, 0.5, 0.3]
        }
    }
}

2. Sweep を初期化する

wandb.sweep を呼び出すと、 Sweep Controller が起動します。これは、問い合わせてきたものに対して parameters の設定を提供し、 wandb のログ記録を通じて metrics のパフォーマンスが返されるのを待機する集中型プロセスです。

sweep_id = wandb.sweep(sweep_config, project="XGBoost-sweeps")

トレーニングプロセスの定義

sweep を実行する前に、モデルを作成してトレーニングする関数を定義する必要があります。これは、ハイパーパラメーターの値を受け取り、メトリクスを出力する関数です。また、スクリプトに wandb を統合する必要があります。主に 3 つのコンポーネントがあります：

wandb.init(): 新しい W&B Run を初期化します。各 Run はトレーニングスクリプトの 1 回の実行を指します。
run.config: すべてのハイパーパラメーターを設定オブジェクトに保存します。これにより、 W&B のアプリを使用して、ハイパーパラメーターの値ごとに Run を並べ替えたり比較したりできます。
run.log(): メトリクスや、画像、動画、音声ファイル、HTML、プロット、ポイントクラウドなどのカスタムオブジェクトをログに記録します。

また、データをダウンロードする必要もあります。

!wget https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv

# Pima Indians データセット用の XGBoost モデル
from numpy import loadtxt
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# データをロード
def train():
  config_defaults = {
    "booster": "gbtree",
    "max_depth": 3,
    "learning_rate": 0.1,
    "subsample": 1,
    "seed": 117,
    "test_size": 0.33,
  }

  with wandb.init(config=config_defaults)  as run: # デフォルト値は sweep 中に上書きされます
    config = run.config

    # データをロードし、特徴量とターゲットに分割
    dataset = loadtxt("pima-indians-diabetes.data.csv", delimiter=",")
    X, Y = dataset[:, :8], dataset[:, 8]

    # データをトレーニングセットとテストセットに分割
    X_train, X_test, y_train, y_test = train_test_split(X, Y,
                                                        test_size=config.test_size,
                                                        random_state=config.seed)

    # トレーニングデータでモデルを適合
    model = XGBClassifier(booster=config.booster, max_depth=config.max_depth,
                          learning_rate=config.learning_rate, subsample=config.subsample)
    model.fit(X_train, y_train)

    # テストデータで予測
    y_pred = model.predict(X_test)
    predictions = [round(value) for value in y_pred]

    # 予測を評価
    accuracy = accuracy_score(y_test, predictions)
    print(f"Accuracy: {accuracy:.0%}")
    run.log({"accuracy": accuracy})

3. Agent で Sweep を実行する

次に、 wandb.agent を呼び出して sweep を開始します。 W&B にログインしており、以下のものがある任意のマシンで wandb.agent を呼び出すことができます：

sweep_id
データセットと train 関数

そのマシンが sweep に参加します。

注意: random (ランダム) スイープは、デフォルトでは新しいパラメータの組み合わせを延々と試し続けます。これを止めるには、アプリの UI から sweep をオフにするか、 agent に完了させたい合計 Run 数 count を指定します。

wandb.agent(sweep_id, train, count=25)

結果の可視化

sweep が完了したら、結果を確認しましょう。 W&B は、いくつかの有用なプロットを自動的に生成します。

並行座標プロット (Parallel coordinates plot)

このプロットは、ハイパーパラメーターの値とモデルのメトリクスをマッピングします。最高のモデルパフォーマンスにつながったハイパーパラメーターの組み合わせを絞り込むのに役立ちます。このプロットからは、学習器としてツリーを使用した方が、単純な線形モデルを使用するよりも、驚くほどではないにせよ、わずかにパフォーマンスが良いことが示唆されています。

パラメータの重要度プロット (Hyperparameter importance plot)

パラメータの重要度プロットは、どのハイパーパラメーターの値がメトリクスに最も大きな影響を与えたかを示します。相関関係 (線形予測子として扱う) と特徴量の重要度 ( 結果に対してランダムフォレストをトレーニングした後) の両方をレポートするため、どのパラメータが最も大きな影響を与えたか、そしてその影響が正であったか負であったかを確認できます。このチャートを見ると、上記の並行座標プロットで気づいた傾向が定量的に確認できます。検証精度に最も大きな影響を与えたのは学習器の選択であり、 gblinear 学習器は概して gbtree 学習器よりも劣っていました。

これらの可視化は、最も重要でさらなる探索の価値があるパラメータ (およびその値の範囲) に焦点を当てることで、コストのかかるハイパーパラメーター最適化を実行する際の時間とリソースの両方を節約するのに役立ちます。

Guides

Integrations

Tutorials

Reference

Sweeps: 概要

リソース

1. Sweep を定義する

2. Sweep を初期化する

トレーニングプロセスの定義

3. Agent で Sweep を実行する

結果の可視化

並行座標プロット (Parallel coordinates plot)

パラメータの重要度プロット (Hyperparameter importance plot)

Guides

Integrations

Tutorials

Reference

​Sweeps: 概要

​リソース

​1. Sweep を定義する

​2. Sweep を初期化する

​トレーニングプロセスの定義

​3. Agent で Sweep を実行する

​結果の可視化

​並行座標プロット (Parallel coordinates plot)

​パラメータの重要度プロット (Hyperparameter importance plot)

Sweeps: 概要

リソース

1. Sweep を定義する

2. Sweep を初期化する

トレーニングプロセスの定義

3. Agent で Sweep を実行する

結果の可視化

並行座標プロット (Parallel coordinates plot)

パラメータの重要度プロット (Hyperparameter importance plot)