評価ベンチマークカタログ

LLM Evaluation Jobs is in Preview for W&B Multi-tenant Cloud. Compute is free during the preview period. Learn more

このページでは、 LLM Evaluation Jobs が提供する評価ベンチマークをカテゴリ別にリストアップしています。特定のベンチマークを実行するには、チーム管理者がチームスコープの secret として必要な API キーを追加する必要があります。チームメンバーは、評価ジョブを設定する際にその secret を指定できます。

OpenAI Model Scorer カラムが true のベンチマークは、スコアリングに OpenAI モデルを使用します。組織またはチームの管理者は、OpenAI API キーをチーム secret として追加する必要があります。この要件があるベンチマークで評価ジョブを設定する場合は、 Scorer API key フィールドにその secret を設定してください。
Gated Hugging Face Dataset カラムにリンクがあるベンチマークは、ゲート付きの Hugging Face データセットへのアクセスが必要です。組織またはチームの管理者は、Hugging Face でデータセットへのアクセスをリクエストし、Hugging Face ユーザーアクセストークンを作成して、そのアクセスキーをチーム secret として設定する必要があります。この要件があるベンチマークを設定する場合は、 Hugging Face Token フィールドにその secret を設定してください。

Knowledge（知識）

科学、言語、一般的な推論など、さまざまなドメインにわたる事実知識を評価します。

評価	タスク ID	OpenAI Model Scorer	Gated Hugging Face Dataset	説明
BoolQ	`boolq`			自然言語クエリからの 2 値（はい/いいえ）の質問
GPQA Diamond	`gpqa_diamond`			大学院レベルの科学の質問（最高品質のサブセット）
HLE	`hle`		Yes	人間レベルの評価ベンチマーク
Lingoly	`lingoly`		Yes	言語学オリンピックの問題
Lingoly Too	`lingoly_too`		Yes	拡張された言語学チャレンジ問題
MMIU	`mmiu`			大規模マルチタスク言語理解ベンチマーク
MMLU (0-shot)	`mmlu_0_shot`			例示なし（0-shot）での大規模マルチタスク言語理解
MMLU (5-shot)	`mmlu_5_shot`			5 つの例示を伴う大規模マルチタスク言語理解
MMLU-Pro	`mmlu_pro`			MMLU のより難易度の高いバージョン
ONET M6	`onet_m6`			職業知識ベンチマーク
PAWS	`paws`			言い換えによる敵対的単語置換
SevenLLM MCQ (English)	`sevenllm_mcq_en`			英語の多肢選択式質問
SevenLLM MCQ (Chinese)	`sevenllm_mcq_zh`			中国語の多肢選択式質問
SevenLLM QA (English)	`sevenllm_qa_en`			英語の質問回答（QA）
SevenLLM QA (Chinese)	`sevenllm_qa_zh`			中国語の質問回答（QA）
SimpleQA	`simpleqa`	Yes		直接的な事実に関する質問回答
SimpleQA Verified	`simpleqa_verified`			検証済みの回答を含む SimpleQA のサブセット
WorldSense	`worldsense`			世界の知識と常識の理解度を評価

Reasoning（推論）

論理的思考、問題解決、および常識的な推論能力を評価します。

評価	タスク ID	説明
AGIE AQUA-RAT	`agie_aqua_rat`	根拠（rationale）を伴う代数の質問回答
AGIE LogiQA (English)	`agie_logiqa_en`	英語の論理推論の質問
AGIE LSAT Analytical Reasoning	`agie_lsat_ar`	LSAT 分析推論（ロジックパズル）の問題
AGIE LSAT Logical Reasoning	`agie_lsat_lr`	LSAT 論理推論の質問
ARC Challenge	`arc_challenge`	推論を必要とする難易度の高い科学の質問（AI2 推論チャレンジ）
ARC Easy	`arc_easy`	ARC データセットからの比較的容易な科学の質問セット
BBH	`bbh`	BIG-Bench Hard: BIG-Bench からの難易度の高いタスク
CoCoNot	`coconot`	反実仮想的な常識推論ベンチマーク
CommonsenseQA	`commonsense_qa`	常識推論の質問
HellaSwag	`hellaswag`	常識的な自然言語推論
MUSR	`musr`	多段階推論ベンチマーク
PIQA	`piqa`	物理的な常識推論
WinoGrande	`winogrande`	代名詞の解消を通じた常識推論

Math（数学）

小学校レベルから競技レベルの問題まで、さまざまな難易度の数学的問題解決能力を評価します。

評価	タスク ID	説明
AGIE Math	`agie_math`	AGIE ベンチマークスイートからの高度な数学的推論
AGIE SAT Math	`agie_sat_math`	SAT 数学の質問
AIME 2024	`aime2024`	2024 年のアメリカ招待数学検定（AIME）の問題
AIME 2025	`aime2025`	2025 年のアメリカ招待数学検定（AIME）の問題
GSM8K	`gsm8k`	Grade School Math 8K: 多段階の算数文章題
InfiniteBench Math Calc	`infinite_bench_math_calc`	長いコンテキストにおける数学的計算
InfiniteBench Math Find	`infinite_bench_math_find`	長いコンテキストにおける数学的パターンの発見
MATH	`math`	競技レベルの数学問題
MGSM	`mgsm`	多言語の小学校レベルの算数

Code（コード）

デバッグ、コード実行予測、関数呼び出しなどのプログラミングおよびソフトウェア開発能力を評価します。

評価	タスク ID	説明
BFCL	`bfcl`	Berkeley Function Calling Leaderboard: 関数呼び出しとツール使用能力をテスト
InfiniteBench Code Debug	`infinite_bench_code_debug`	長いコンテキストでのコードデバッグタスク
InfiniteBench Code Run	`infinite_bench_code_run`	長いコンテキストでのコード実行予測

Reading（読解）

複雑なテキストからの読解力と情報抽出能力を評価します。

評価	タスク ID	説明
AGIE LSAT Reading Comprehension	`agie_lsat_rc`	LSAT の読解パッセージと質問
AGIE SAT English	`agie_sat_en`	パッセージを含む SAT の読解および作文の質問
AGIE SAT English (No Passage)	`agie_sat_en_without_passage`	パッセージを伴わない SAT 英語の質問
DROP	`drop`	Discrete Reasoning Over Paragraphs: 数値的推論を必要とする読解
RACE-H	`race_h`	英語試験（難易度高）からの読解
SQuAD	`squad`	Stanford Question Answering Dataset: Wikipedia 記事に対する抽出型の質問回答

Long context（長いコンテキスト）

検索やパターン認識を含む、拡張されたコンテキストを処理し推論する能力を評価します。

評価	タスク ID	説明
InfiniteBench KV Retrieval	`infinite_bench_kv_retrieval`	長いコンテキストにおけるキーバリュー検索
InfiniteBench LongBook (English)	`infinite_bench_longbook_choice_eng`	長い書籍に関する多肢選択式質問
InfiniteBench LongDialogue QA (English)	`infinite_bench_longdialogue_qa_eng`	長い対話に対する質問回答
InfiniteBench Number String	`infinite_bench_number_string`	長いシーケンス内の数値パターン認識
InfiniteBench Passkey	`infinite_bench_passkey`	長いコンテキストからの情報検索
NIAH	`niah`	Needle in a Haystack: 長いコンテキストの検索テスト

Safety（安全性）

アライメント、バイアス検出、有害コンテンツへの耐性、および真実性を評価します。

評価	タスク ID	OpenAI Scorer	Gated HF Dataset	説明
AgentHarm	`agentharm`	Yes		有害なエージェントの振る舞いや悪用シナリオに対するモデルの耐性をテスト
AgentHarm Benign	`agentharm_benign`	Yes		偽陽性率を測定するための AgentHarm の良性ベースライン
Agentic Misalignment	`agentic_misalignment`			エージェント的な振る舞いにおける潜在的なミスアライメントを評価
AHB	`ahb`			Agent Harmful Behavior: 有害なエージェントアクションに対する耐性をテスト
AIRBench	`air_bench`			敵対的な指示に対する耐性をテスト
BBEH	`bbeh`			有害な振る舞いを評価するためのバイアスベンチマーク
BBEH Mini	`bbeh_mini`			BBEH ベンチマークの縮小版
BBQ	`bbq`			質問回答に関するバイアスベンチマーク
BOLD	`bold`			オープンエンドな言語生成におけるバイアスデータセット
CYSE3 Visual Prompt Injection	`cyse3_visual_prompt_injection`			視覚的なプロンプトインジェクション攻撃に対する耐性をテスト
Make Me Pay	`make_me_pay`			金銭詐欺や不正シナリオに対する耐性をテスト
MASK	`mask`	Yes	Yes	モデルの機密情報の取り扱いをテスト
Personality BFI	`personality_BFI`			ビッグファイブ性格特性評価
Personality TRAIT	`personality_TRAIT`		Yes	包括的な性格特性評価
SOSBench	`sosbench`	Yes		安全性と監督のストレステスト
StereoSet	`stereoset`			言語モデルにおけるステレオタイプ的なバイアスを測定
StrongREJECT	`strong_reject`			有害なリクエストを拒絶するモデルの能力をテスト
Sycophancy	`sycophancy`			お世辞（sycophantic）な振る舞いをする傾向を評価
TruthfulQA	`truthfulqa`			モデルの真実性と虚偽に対する耐性をテスト
UCCB	`uccb`			不安全なコンテンツの分類ベンチマーク
WMDP Bio	`wmdp_bio`			生物学における危険な知識をテスト
WMDP Chem	`wmdp_chem`			化学における危険な知識をテスト
WMDP Cyber	`wmdp_cyber`			サイバーセキュリティにおける危険な知識をテスト
XSTest	`xstest`	Yes		過剰な拒絶を検出するための過剰安全テスト

Domain-Specific（ドメイン特化）

医学、化学、法学、生物学、およびその他の専門分野における専門知識を評価します。

評価	タスク ID	OpenAI Scorer	説明
ChemBench	`chembench`		化学の知識と問題解決のベンチマーク
HealthBench	`healthbench`	Yes	ヘルスケアおよび医学知識の評価
HealthBench Consensus	`healthbench_consensus`	Yes	専門家の合意に基づくヘルスケアの質問
HealthBench Hard	`healthbench_hard`	Yes	難易度の高いヘルスケアシナリオ
LabBench Cloning Scenarios	`lab_bench_cloning_scenarios`		実験計画とクローニング
LabBench DBQA	`lab_bench_dbqa`		ラボシナリオに関するデータベースの質問回答
LabBench FigQA	`lab_bench_figqa`		科学的文脈における図の解釈
LabBench LitQA	`lab_bench_litqa`		研究用文献に基づく質問回答
LabBench ProtocolQA	`lab_bench_protocolqa`		実験プロトコルの理解
LabBench SeqQA	`lab_bench_seqqa`		生物学的配列分析の質問
LabBench SuppQA	`lab_bench_suppqa`		補足資料の解釈
LabBench TableQA	`lab_bench_tableqa`		科学論文における表の解釈
MedQA	`medqa`		医師免許試験の質問
PubMedQA	`pubmedqa`		研究アブストラクトからの生物医学的質問回答
SEC-QA v1	`sec_qa_v1`		SEC（米国証券取引委員会）提出書類の質問回答
SEC-QA v1 (5-shot)	`sec_qa_v1_5_shot`		5 つの例示を伴う SEC-QA
SEC-QA v2	`sec_qa_v2`		更新された SEC 提出書類ベンチマーク
SEC-QA v2 (5-shot)	`sec_qa_v2_5_shot`		5 つの例示を伴う SEC-QA v2

Multimodal（マルチモーダル）

視覚入力とテキスト入力を組み合わせた、画像と言語の理解度を評価します。

評価	タスク ID	説明
DocVQA	`docvqa`	Document Visual Question Answering: 文書画像に関する質問
MathVista	`mathvista`	視覚的文脈を伴う数学的推論（視覚と数学の融合）
MMMU Multiple Choice	`mmmu_multiple_choice`	多肢選択形式によるマルチモーダル理解
MMMU Open	`mmmu_open`	自由回答形式によるマルチモーダル理解
V*Star Bench Attribute Recognition	`vstar_bench_attribute_recognition`	視覚的な属性認識タスク
V*Star Bench Spatial Relationship	`vstar_bench_spatial_relationship_reasoning`	視覚入力による空間推論

Instruction Following（指示追従）

特定の指示やフォーマット要件への遵守度を評価します。

評価	タスク ID	OpenAI Scorer	Gated HF Dataset	説明
IFEval	`ifeval`			正確な指示追従能力をテスト

System（システム）

基本的なシステムの検証と実行前チェックです。

評価	タスク ID	OpenAI Scorer	Gated HF Dataset	説明
Pre-Flight	`pre_flight`			基本的なシステムチェックと検証テスト

次のステップ

モデルのチェックポイントを評価する
ホストされた API モデルを評価する
特定のベンチマークの詳細については AISI Inspect Evals を参照してください。

Guides

Integrations

Tutorials

Reference

Knowledge（知識）

Reasoning（推論）

Math（数学）

Code（コード）

Reading（読解）

Long context（長いコンテキスト）

Safety（安全性）

Domain-Specific（ドメイン特化）

Multimodal（マルチモーダル）

Instruction Following（指示追従）

System（システム）

次のステップ

Guides

Integrations

Tutorials

Reference

​Knowledge（知識）

​Reasoning（推論）

​Math（数学）

​Code（コード）

​Reading（読解）

​Long context（長いコンテキスト）

​Safety（安全性）

​Domain-Specific（ドメイン特化）

​Multimodal（マルチモーダル）

​Instruction Following（指示追従）

​System（システム）

​次のステップ

Knowledge（知識）

Reasoning（推論）

Math（数学）

Code（コード）

Reading（読解）

Long context（長いコンテキスト）

Safety（安全性）

Domain-Specific（ドメイン特化）

Multimodal（マルチモーダル）

Instruction Following（指示追従）

System（システム）

次のステップ