メインコンテンツへスキップ
LLM Evaluation Jobs is in Preview for W&B Multi-tenant Cloud. Compute is free during the preview period. Learn more
このページでは、 LLM Evaluation Jobs が提供する評価ベンチマークをカテゴリ別にリストアップしています。 特定のベンチマークを実行するには、チーム管理者が チームスコープの secret として必要な API キーを追加する必要があります。チームメンバーは、評価ジョブを設定する際にその secret を指定できます。
  • OpenAI Model Scorer カラムが true のベンチマークは、スコアリングに OpenAI モデルを使用します。組織またはチームの管理者は、OpenAI API キーをチーム secret として追加する必要があります。この要件があるベンチマークで評価ジョブを設定する場合は、 Scorer API key フィールドにその secret を設定してください。
  • Gated Hugging Face Dataset カラムにリンクがあるベンチマークは、ゲート付きの Hugging Face データセットへのアクセスが必要です。組織またはチームの管理者は、Hugging Face でデータセットへのアクセスをリクエストし、Hugging Face ユーザーアクセストークンを作成して、そのアクセスキーをチーム secret として設定する必要があります。この要件があるベンチマークを設定する場合は、 Hugging Face Token フィールドにその secret を設定してください。

Knowledge(知識)

科学、言語、一般的な推論など、さまざまなドメインにわたる事実知識を評価します。
評価タスク IDOpenAI Model ScorerGated Hugging Face Dataset説明
BoolQboolq自然言語クエリからの 2 値(はい/いいえ)の質問
GPQA Diamondgpqa_diamond大学院レベルの科学の質問(最高品質のサブセット)
HLEhleYes人間レベルの評価ベンチマーク
LingolylingolyYes言語学オリンピックの問題
Lingoly Toolingoly_tooYes拡張された言語学チャレンジ問題
MMIUmmiu大規模マルチタスク言語理解ベンチマーク
MMLU (0-shot)mmlu_0_shot例示なし(0-shot)での大規模マルチタスク言語理解
MMLU (5-shot)mmlu_5_shot5 つの例示を伴う大規模マルチタスク言語理解
MMLU-Prommlu_proMMLU のより難易度の高いバージョン
ONET M6onet_m6職業知識ベンチマーク
PAWSpaws言い換えによる敵対的単語置換
SevenLLM MCQ (English)sevenllm_mcq_en英語の多肢選択式質問
SevenLLM MCQ (Chinese)sevenllm_mcq_zh中国語の多肢選択式質問
SevenLLM QA (English)sevenllm_qa_en英語の質問回答(QA)
SevenLLM QA (Chinese)sevenllm_qa_zh中国語の質問回答(QA)
SimpleQAsimpleqaYes直接的な事実に関する質問回答
SimpleQA Verifiedsimpleqa_verified検証済みの回答を含む SimpleQA のサブセット
WorldSenseworldsense世界の知識と常識の理解度を評価

Reasoning(推論)

論理的思考、問題解決、および常識的な推論能力を評価します。
評価タスク IDOpenAI ScorerGated HF Dataset説明
AGIE AQUA-RATagie_aqua_rat根拠(rationale)を伴う代数の質問回答
AGIE LogiQA (English)agie_logiqa_en英語の論理推論の質問
AGIE LSAT Analytical Reasoningagie_lsat_arLSAT 分析推論(ロジックパズル)の問題
AGIE LSAT Logical Reasoningagie_lsat_lrLSAT 論理推論の質問
ARC Challengearc_challenge推論を必要とする難易度の高い科学の質問(AI2 推論チャレンジ)
ARC Easyarc_easyARC データセットからの比較的容易な科学の質問セット
BBHbbhBIG-Bench Hard: BIG-Bench からの難易度の高いタスク
CoCoNotcoconot反実仮想的な常識推論ベンチマーク
CommonsenseQAcommonsense_qa常識推論の質問
HellaSwaghellaswag常識的な自然言語推論
MUSRmusr多段階推論ベンチマーク
PIQApiqa物理的な常識推論
WinoGrandewinogrande代名詞の解消を通じた常識推論

Math(数学)

小学校レベルから競技レベルの問題まで、さまざまな難易度の数学的問題解決能力を評価します。
評価タスク IDOpenAI ScorerGated HF Dataset説明
AGIE Mathagie_mathAGIE ベンチマークスイートからの高度な数学的推論
AGIE SAT Mathagie_sat_mathSAT 数学の質問
AIME 2024aime20242024 年のアメリカ招待数学検定(AIME)の問題
AIME 2025aime20252025 年のアメリカ招待数学検定(AIME)の問題
GSM8Kgsm8kGrade School Math 8K: 多段階の算数文章題
InfiniteBench Math Calcinfinite_bench_math_calc長いコンテキストにおける数学的計算
InfiniteBench Math Findinfinite_bench_math_find長いコンテキストにおける数学的パターンの発見
MATHmath競技レベルの数学問題
MGSMmgsm多言語の小学校レベルの算数

Code(コード)

デバッグ、コード実行予測、関数呼び出しなどのプログラミングおよびソフトウェア開発能力を評価します。
評価タスク IDOpenAI ScorerGated HF Dataset説明
BFCLbfclBerkeley Function Calling Leaderboard: 関数呼び出しとツール使用能力をテスト
InfiniteBench Code Debuginfinite_bench_code_debug長いコンテキストでのコードデバッグタスク
InfiniteBench Code Runinfinite_bench_code_run長いコンテキストでのコード実行予測

Reading(読解)

複雑なテキストからの読解力と情報抽出能力を評価します。
評価タスク IDOpenAI ScorerGated HF Dataset説明
AGIE LSAT Reading Comprehensionagie_lsat_rcLSAT の読解パッセージと質問
AGIE SAT Englishagie_sat_enパッセージを含む SAT の読解および作文の質問
AGIE SAT English (No Passage)agie_sat_en_without_passageパッセージを伴わない SAT 英語の質問
DROPdropDiscrete Reasoning Over Paragraphs: 数値的推論を必要とする読解
RACE-Hrace_h英語試験(難易度高)からの読解
SQuADsquadStanford Question Answering Dataset: Wikipedia 記事に対する抽出型の質問回答

Long context(長いコンテキスト)

検索やパターン認識を含む、拡張されたコンテキストを処理し推論する能力を評価します。
評価タスク IDOpenAI ScorerGated HF Dataset説明
InfiniteBench KV Retrievalinfinite_bench_kv_retrieval長いコンテキストにおけるキーバリュー検索
InfiniteBench LongBook (English)infinite_bench_longbook_choice_eng長い書籍に関する多肢選択式質問
InfiniteBench LongDialogue QA (English)infinite_bench_longdialogue_qa_eng長い対話に対する質問回答
InfiniteBench Number Stringinfinite_bench_number_string長いシーケンス内の数値パターン認識
InfiniteBench Passkeyinfinite_bench_passkey長いコンテキストからの情報検索
NIAHniahNeedle in a Haystack: 長いコンテキストの検索テスト

Safety(安全性)

アライメント、バイアス検出、有害コンテンツへの耐性、および真実性を評価します。
評価タスク IDOpenAI ScorerGated HF Dataset説明
AgentHarmagentharmYes有害なエージェントの振る舞いや悪用シナリオに対するモデルの耐性をテスト
AgentHarm Benignagentharm_benignYes偽陽性率を測定するための AgentHarm の良性ベースライン
Agentic Misalignmentagentic_misalignmentエージェント的な振る舞いにおける潜在的なミスアライメントを評価
AHBahbAgent Harmful Behavior: 有害なエージェントアクションに対する耐性をテスト
AIRBenchair_bench敵対的な指示に対する耐性をテスト
BBEHbbeh有害な振る舞いを評価するためのバイアスベンチマーク
BBEH Minibbeh_miniBBEH ベンチマークの縮小版
BBQbbq質問回答に関するバイアスベンチマーク
BOLDboldオープンエンドな言語生成におけるバイアスデータセット
CYSE3 Visual Prompt Injectioncyse3_visual_prompt_injection視覚的なプロンプトインジェクション攻撃に対する耐性をテスト
Make Me Paymake_me_pay金銭詐欺や不正シナリオに対する耐性をテスト
MASKmaskYesYesモデルの機密情報の取り扱いをテスト
Personality BFIpersonality_BFIビッグファイブ性格特性評価
Personality TRAITpersonality_TRAITYes包括的な性格特性評価
SOSBenchsosbenchYes安全性と監督のストレステスト
StereoSetstereoset言語モデルにおけるステレオタイプ的なバイアスを測定
StrongREJECTstrong_reject有害なリクエストを拒絶するモデルの能力をテスト
Sycophancysycophancyお世辞(sycophantic)な振る舞いをする傾向を評価
TruthfulQAtruthfulqaモデルの真実性と虚偽に対する耐性をテスト
UCCBuccb不安全なコンテンツの分類ベンチマーク
WMDP Biowmdp_bio生物学における危険な知識をテスト
WMDP Chemwmdp_chem化学における危険な知識をテスト
WMDP Cyberwmdp_cyberサイバーセキュリティにおける危険な知識をテスト
XSTestxstestYes過剰な拒絶を検出するための過剰安全テスト

Domain-Specific(ドメイン特化)

医学、化学、法学、生物学、およびその他の専門分野における専門知識を評価します。
評価タスク IDOpenAI ScorerGated HF Dataset説明
ChemBenchchembench化学の知識と問題解決のベンチマーク
HealthBenchhealthbenchYesヘルスケアおよび医学知識の評価
HealthBench Consensushealthbench_consensusYes専門家の合意に基づくヘルスケアの質問
HealthBench Hardhealthbench_hardYes難易度の高いヘルスケアシナリオ
LabBench Cloning Scenarioslab_bench_cloning_scenarios実験計画とクローニング
LabBench DBQAlab_bench_dbqaラボシナリオに関するデータベースの質問回答
LabBench FigQAlab_bench_figqa科学的文脈における図の解釈
LabBench LitQAlab_bench_litqa研究用文献に基づく質問回答
LabBench ProtocolQAlab_bench_protocolqa実験プロトコルの理解
LabBench SeqQAlab_bench_seqqa生物学的配列分析の質問
LabBench SuppQAlab_bench_suppqa補足資料の解釈
LabBench TableQAlab_bench_tableqa科学論文における表の解釈
MedQAmedqa医師免許試験の質問
PubMedQApubmedqa研究アブストラクトからの生物医学的質問回答
SEC-QA v1sec_qa_v1SEC(米国証券取引委員会)提出書類の質問回答
SEC-QA v1 (5-shot)sec_qa_v1_5_shot5 つの例示を伴う SEC-QA
SEC-QA v2sec_qa_v2更新された SEC 提出書類ベンチマーク
SEC-QA v2 (5-shot)sec_qa_v2_5_shot5 つの例示を伴う SEC-QA v2

Multimodal(マルチモーダル)

視覚入力とテキスト入力を組み合わせた、画像と言語の理解度を評価します。
評価タスク IDOpenAI ScorerGated HF Dataset説明
DocVQAdocvqaDocument Visual Question Answering: 文書画像に関する質問
MathVistamathvista視覚的文脈を伴う数学的推論(視覚と数学の融合)
MMMU Multiple Choicemmmu_multiple_choice多肢選択形式によるマルチモーダル理解
MMMU Openmmmu_open自由回答形式によるマルチモーダル理解
V*Star Bench Attribute Recognitionvstar_bench_attribute_recognition視覚的な属性認識タスク
V*Star Bench Spatial Relationshipvstar_bench_spatial_relationship_reasoning視覚入力による空間推論

Instruction Following(指示追従)

特定の指示やフォーマット要件への遵守度を評価します。
評価タスク IDOpenAI ScorerGated HF Dataset説明
IFEvalifeval正確な指示追従能力をテスト

System(システム)

基本的なシステムの検証と実行前チェックです。
評価タスク IDOpenAI ScorerGated HF Dataset説明
Pre-Flightpre_flight基本的なシステムチェックと検証テスト

次のステップ