BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models

https://papers.cool/arxiv/2104.08663

Authors: Nandan Thakur ; Nils Reimers ; Andreas Rücklé ; Abhishek Srivastava ; Iryna Gurevych

Summary: Existing neural information retrieval (IR) models have often been studied in homogeneous and narrow settings, which has considerably limited insights into their out-of-distribution (OOD) generalization capabilities. To address this, and to facilitate researchers to broadly evaluate the effectiveness of their models, we introduce Benchmarking-IR (BEIR), a robust and heterogeneous evaluation benchmark for information retrieval. We leverage a careful selection of 18 publicly available datasets from diverse text retrieval tasks and domains and evaluate 10 state-of-the-art retrieval systems including lexical, sparse, dense, late-interaction and re-ranking architectures on the BEIR benchmark. Our results show BM25 is a robust baseline and re-ranking and late-interaction-based models on average achieve the best zero-shot performances, however, at high computational costs. In contrast, dense and sparse-retrieval models are computationally more efficient but often underperform other approaches, highlighting the considerable room for improvement in their generalization capabilities. We hope this framework allows us to better evaluate and understand existing retrieval systems, and contributes to accelerating progress towards better robust and generalizable systems in the future. BEIR is publicly available at https://github.com/UKPLab/beir.


Q: 这篇论文试图解决什么问题?

A: 这篇论文介绍了一个名为BEIR(Benchmarking IR)的异构基准测试,旨在解决现有神经信息检索(IR)模型在分布外(out-of-distribution, OOD)泛化能力评估方面的局限性。具体来说,论文试图解决以下问题:

  1. 现有研究的局限性:以往的研究通常在同质化和狭窄的设置中研究IR模型,这限制了对模型在不同领域和任务中的泛化能力的洞察。
  2. 零样本(Zero-shot)评估:许多检索系统在没有可用训练数据的情况下应用,即零样本设置。这要求模型能够在没有针对特定任务训练的情况下进行有效检索。
  3. 模型比较和评估:缺乏一个统一的、全面的基准测试,使得研究人员难以比较不同检索方法在多样化任务和数据集上的表现。
  4. 计算效率与性能的权衡:在零样本性能和计算成本之间存在权衡,论文探讨了不同模型在这两方面的性能。
  5. 数据集偏差:现有数据集可能存在词汇偏差,这可能对非词汇方法不利。论文分析了这种偏差,并提出了改进的建议。

通过BEIR基准测试,论文希望提供一个框架,以便更好地评估和理解现有检索系统,并促进未来更健壮、更泛化系统的进展。


Q: 有哪些相关研究?

A: 论文中提到的相关研究主要集中在以下几个方面:

  1. 神经信息检索(Neural IR):近年来,深度学习和预训练的Transformer模型(如BERT)在信息检索领域变得越来越流行。这些神经检索系统可以通过多种方式改进检索性能。
  2. 零样本信息检索基准:BEIR是第一个广泛的零样本信息检索基准。之前的工作(如MultiReQA和KILT)没有深入评估零样本设置,它们要么关注单一任务,要么关注特定领域。
  3. 检索方法的多样性:论文中提到了多种检索方法,包括基于词汇的方法(如BM25)、稀疏方法(如DeepCT和SPARTA)、密集方法(如DPR和ANCE)、基于晚期交互的方法(如ColBERT)以及重排方法(如BM25+CE)。
  4. 数据集和任务的多样性:BEIR包括了18个公开可用的数据集,涵盖了不同的文本检索任务和领域,如事实核查、引用预测、重复问题检索、论点检索、新闻检索、问答、推文检索、生物医学IR和实体检索。