メインコンテンツへスキップ
Weights & Biases Documentation home page
検索...
⌘K
Ask AI
Log in
Sign Up
Sign Up
検索...
Navigation
W&B トレーニング
Platform
W&B Models
W&B Weave
W&B Inference
W&B Training
Release Notes
W&B トレーニング
前提条件
Serverless RL
サーバーレス RL
利用可能な モデル
使用情報と制限事項
学習済み Models を使用する
API Reference
API の概要
chat-completions
models
training-jobs
health
日本語
close
W&B トレーニング
ページをコピー
強化学習 を使用して モデル を Post-train する
ページをコピー
現在パブリックプレビュー中の W&B Training は、大規模言語モデル(LLM)のポストトレーニング向けにサーバーレスの 強化学習(RL)を提供します。これにより、マルチターンのエージェントタスクを実行する際の信頼性を向上させつつ、スピードの向上とコストの削減を実現します。RL は、モデルが自身の出力に対するフィードバックを通じて 振る舞い を改善することを学ぶ トレーニング 手法です。
W&B Training は以下の インテグレーション を含んでいます:
ART
: 柔軟な RL ファインチューニング フレームワーク。
RULER
: ユニバーサルな検証ツール。
CoreWeave Cloud
上の完全に管理されたバックエンド。
利用を開始するには、まず
前提条件
を満たしてから、
OpenPipe のサーバーレス RL クイックスタート
を参照して Models のポストトレーニング方法を確認してください。
このページは役に立ちましたか?
はい
いいえ
編集を提案
問題を報告
前提条件
次へ
⌘I