Benchmarks | USTC-CMI

folder_open ~/Benchmarks

Listing 5 items (4 available, 1 coming soon)

VIEW: LIST Sort: Date (Desc)

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

ICLR 2026 BENCHMARK

Mingxuan Du, Benfeng Xu, Chiwei Zhu, et al.

A comprehensive benchmark for evaluating deep research agents on complex scientific research tasks.

DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Reports

PREPRINT 2026 BENCHMARK

Ruizhe Li, Mingxuan Du, Benfeng Xu, et al.

A diagnostic benchmark for deep research agents using expert-derived rubrics to evaluate report quality.

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

PREPRINT 2026 BENCHMARK

Shaohan Wang, Benfeng Xu, Licheng Zhang, et al.

A live benchmark leveraging Wikipedia Good Articles as expert-level references to evaluate deep research agents.

WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora

PREPRINT 2026 BENCHMARK GRAPHRAG

Pengyu Wang, Benfeng Xu, Licheng Zhang, et al.

A benchmark designed to assess GraphRAG performance in the wild using Wikipedia's external references as retrieval corpus, featuring 1,197 questions across 12 topics.

MCP Agent Bench

COMING SOON BENCHMARK

Details will be announced soon.

hourglass_empty