W&B トレーニング

現在パブリックプレビュー中の W&B Training は、大規模言語モデル（LLM）のポストトレーニング向けにサーバーレスの強化学習（RL）を提供します。これにより、マルチターンのエージェントタスクを実行する際の信頼性を向上させつつ、スピードの向上とコストの削減を実現します。RL は、モデルが自身の出力に対するフィードバックを通じて振る舞いを改善することを学ぶトレーニング手法です。 W&B Training は以下のインテグレーションを含んでいます：