LoRA に W&B Inference を使用する理由
- 一度アップロードすれば即座にデプロイ可能 — サーバー管理は不要です。
- アーティファクトの バージョン管理 により、どのバージョンが稼働中かを正確に追跡できます。
- モデル全体の重みではなく、小さな LoRA ファイルを入れ替えるだけで、数秒でモデルを更新できます。
ワークフロー
- LoRA の重みを W&B アーティファクトとしてアップロードします。
- API 内でアーティファクトの URI をモデル名として参照します。
- W&B が推論のために重みを動的にロードします。
前提条件
以下が必要になります:- W&B APIキー
- W&B プロジェクト
openaiとwandbパッケージがインストールされた Python 3.8+:pip install wandb openai
LoRA の追加と使用方法
LoRA を W&B アカウントに追加して使用を開始するには、2つの方法があります。- 他でトレーニングした LoRA をアップロードする
- W&B で新しい LoRA をトレーニングする
独自のカスタム LoRA ディレクトリーを W&B アーティファクトとしてアップロードします。これは、ローカル環境、クラウドプロバイダー、またはパートナーサービスなど、他の場所で LoRA をトレーニングした場合に最適です。この Python コードは、ローカルに保存された LoRA の重みを、バージョン管理されたアーティファクトとして W&B にアップロードします。必要な メタデータ (ベースモデルとストレージリージョン) を含む
lora タイプのアーティファクトを作成し、ローカルディレクトリーから LoRA ファイルを追加して、推論で使用するために W&B プロジェクト に ログ を記録します。主な要件
独自の LoRA を Inference で使用する場合:- LoRA は サポートされているベースモデルセクション に記載されているモデルのいずれかを使用してトレーニングされている必要があります。
- W&B アカウントに
loraタイプのアーティファクトとして PEFT 形式で保存されている必要があります。 - 低レイテンシを実現するため、LoRA は
storage_region="coreweave-us"に保存されている必要があります。 - アップロード時に、トレーニングに使用したベースモデルの名前 (例:
meta-llama/Llama-3.1-8B-Instruct) を含めてください。これにより、W&B は正しいモデルでロードできるようになります。
サポートされているベースモデル
現在、Inference は以下の LLM に対して構成されています (wandb.base_model には正確な文字列を使用する必要があります)。対応モデルは今後追加される予定です:
OpenPipe/Qwen3-14B-InstructQwen/Qwen2.5-14B-Instructmeta-llama/Llama-3.1-70B-Instructmeta-llama/Llama-3.1-8B-Instruct