
はじめに
Verifiers と Weave を統合するには、まずuv を使用して Verifiers ライブラリをインストールします(ライブラリの作者によって推奨されています)。以下のコマンドのいずれかを使用してライブラリをインストールしてください。
ロールアウトのトレースと評価
必要なライブラリをインストールしたら、Weave と Verifiers を併用してコールの トレース(Traces)や 評価(Evaluations)を実行できます。 以下のサンプルスクリプトは、Verifiers で評価を実行し、その結果を Weave に ログ(log)する方法を示しています。このスクリプトは、GSM8K データセット を使用して LLM が数学の問題を解く能力をテストします。GPT-4 に 2 つの数学の問題を解かせ、各回答から数値を抽出し、Verifiers を評価フレームワークとして使用してその試行を採点します。 サンプルを実行し、Weave で結果を確認してください。実験管理とトレースを用いたモデルのファインチューン
Weave は、トレーニング中のモデルの挙動に関する洞察を提供することで、RL のファインチューンワークフローにおける強力なツールとなります。W&B と併用することで、包括的なオブザーバビリティが得られます。W&B はトレーニングメトリクスとパフォーマンスチャートを追跡し、Weave はトレーニングプロセス中の各インタラクションの詳細な トレース(Traces)をキャプチャします。verifiers リポジトリには、すぐに実行できる 例 が用意されています。
以下の RL トレーニングパイプラインの例では、ローカルの推論サーバーを実行し、GSM8K データセットを使用してモデルをトレーニングします。モデルは数学の問題に対する回答を返し、トレーニングループは出力をスコアリングしてそれに応じてモデルを更新します。W&B は損失、報酬、精度などのトレーニングメトリクスを記録し、Weave は入力、出力、推論過程、およびスコアリングをキャプチャします。
このパイプラインを使用するには:
- ソースからフレームワークをインストールします。以下のコマンドで GitHub から Verifiers ライブラリと必要な依存関係をインストールします。
- 既成の環境をインストールします。以下のコマンドで、事前設定済みの GSM8K トレーニング環境をインストールします。
- モデルをトレーニングします。以下のコマンドは、それぞれ推論サーバーとトレーニングループを ローンチ(Launch)します。このサンプルワークフローではデフォルトで
report_to=wandbが設定されているため、別途wandb.initを呼び出す必要はありません。W&B にメトリクスを記録するために、このマシンの認証を求められます。
この例は 2xH100 で正常にテストされました。安定性を高めるために、以下の環境変数を設定しています。これらの変数は、デバイスメモリ割り当てのための CUDA Unified Memory (CuMem) を無効にします。
Environment.a_generate および Rubric.score_rollouts メソッドの logprobs が除外されます。これにより、トレーニング用のオリジナルデータはそのままに、ペイロードサイズを小さく抑えています。