- LLM application の オブザーブ(観察)とデバッグ
- LLM 評価モデル(LLM judges)やカスタムスコアラーを使用した、アプリケーションの応答の 評価
はじめに
以下のドキュメントでは、Weave の一連のツールを使用するための基本的な方法をガイドします。クイックスタート:LLM の入出力を追跡する
LLM への基本的な呼び出しをトレースし、W&B アカウントでデータを確認することから始めましょう。
アプリの評価を始める
Weave のスコアラーを使用して、アプリケーションのパフォーマンスをテストおよび追跡するための評価パイプラインを構築する方法を学びます。
RAG アプリケーションを評価する
Weave と LLM judges を使用して RAG アプリケーションを構築・評価し、検索の質を測定します。
Weave のインストール
W&B Weave は Python および TypeScript ライブラリを提供しています。Weave ライブラリをインストールするには、以下のコマンドを実行します。- Python
- TypeScript