벤치마크 데이터셋 모음 | Notion
open_rewrite_eval.parquet
gpqa_main.parquet
gpqa_extended.parquet
gpqa_diamond.parquet
math500.parquet
mbpp.parquet
humaneval.parquet
gsm8k.parquet
arc_easy.parquet
arc_challenge.parquet
mmlu_pro.parquet
mmlu.parquet
aime24.parquet