メインコンテンツへスキップ
現在パブリックプレビュー中の W&B Training は、大規模言語モデル(LLM)のポストトレーニング向けにサーバーレスの 強化学習(RL)を提供します。これにより、マルチターンのエージェントタスクを実行する際の信頼性を向上させつつ、スピードの向上とコストの削減を実現します。RL は、モデルが自身の出力に対するフィードバックを通じて 振る舞い を改善することを学ぶ トレーニング 手法です。 W&B Training は以下の インテグレーション を含んでいます:
  • ART: 柔軟な RL ファインチューニング フレームワーク。
  • RULER: ユニバーサルな検証ツール。
  • CoreWeave Cloud 上の完全に管理されたバックエンド。
利用を開始するには、まず 前提条件 を満たしてから、OpenPipe のサーバーレス RL クイックスタート を参照して Models のポストトレーニング方法を確認してください。