Copious#

概述#

Copious 语料库是一个用于生物多样性实体识别的黄金标准语料库,包含从生物多样性遗产图书馆(Biodiversity Heritage Library)下载的 668 篇文档,涵盖超过 26,000 个句子和 28,000 多个实体,内容涉及分类学和生态学信息。

任务描述#

  • 任务类型:生物多样性命名实体识别(NER)

  • 输入:生物多样性文献文本

  • 输出:识别出的生物多样性实体片段

  • 领域:生物多样性、生态学、分类学

主要特点#

  • 来自生物多样性遗产图书馆的 668 篇文档

  • 超过 26,000 个句子

  • 超过 28,000 个实体标注

  • 五种生物多样性专用实体类型

  • 生物多样性 NLP 的黄金标准

评估说明#

  • 默认配置使用 5-shot 评估

  • 评估指标:精确率(Precision)、召回率(Recall)、F1 分数(F1-Score)、准确率(Accuracy)

  • 实体类型:TAXON(分类单元)、GEOGRAPHICAL_LOCATION(地理位置)、HABITAT(栖息地)、PERSON(人物)、TEMPORAL_EXPRESSION(时间表达)

属性#

属性

基准测试名称

copious

数据集 ID

extraordinarylab/copious

论文

N/A

标签

Knowledge, NER

指标

precision, recall, f1_score, accuracy

默认示例数

5-shot

评估集

test

训练集

train

数据统计#

统计数据不可用。

样例示例#

子集: default

{
  "input": [
    {
      "id": "a4f5bffd",
      "content": "Here are some examples of named entity recognition:\n\nInput:\nFAMILY SERRANIDAE — SCHULTZ 363 Genus PLECTROPOMUS Oken Plectropomus Oken, Isis, p. 1182] 1782 (on \"Les Plectropomes\" Cuvier, Rgne animal, vol. 2, p. 277, 1817). (Genotype, Bodianus  ... [TRUNCATED] ... 9276, Sp. Blancoanae 787, Phil. PL 126, Elmer 18216, 16818, 164-17, 9570, B. S. 12036, 13334, 32736, 14746 Ramos. India to southern China and Formosa through Malaya to Samoa. Local names: Banana (Sub); bacilli (C. Bis); balisibis (Iv) ; baud\n"
    }
  ],
  "target": "<response>Vo] l <taxon>GRAMINEAE</taxon> 53 23. <taxon>THYSANOLAENA Nees</taxon> <taxon>THYSANOLAENA MAXIMA (Roxb) O. Kuntze</taxon> Rev. Gen. PI. (1891) 794; Pilger in Perk. Frag. Fl. Philip. (1904) 141; Merr. in Philip. Journ. Si. 1 (1906)  ... [TRUNCATED] ... aphical_location>Malaya</geographical_location> to <geographical_location>Samoa.</geographical_location> Local names: <taxon>Banana</taxon> (Sub); <taxon>bacilli</taxon> (C. Bis); <taxon>balisibis</taxon> (Iv) ; <taxon>baud</taxon></response>",
  "id": 0,
  "group_id": 0,
  "metadata": {
    "tokens": [
      "Vo]",
      "l",
      "GRAMINEAE",
      "53",
      "23.",
      "THYSANOLAENA",
      "Nees",
      "THYSANOLAENA",
      "MAXIMA",
      "(Roxb)",
      "O.",
      "Kuntze",
      "Rev.",
      "Gen.",
      "PI.",
      "(1891)",
      "794;",
      "Pilger",
      "in",
      "Perk.",
      "Frag.",
      "Fl.",
      "Philip.",
      "(1904)",
      "141;",
      "Merr.",
      "in",
      "Philip.",
      "Journ.",
      "Si.",
      "1",
      "(1906)",
      "Suppl.",
      "343.",
      "Agrostis",
      "maxima",
      "Roxb.",
      "Fl.",
      "Ind.",
      "1",
      "(1820)",
      "319.",
      "Thysanolaena",
      "agrostis",
      "Nees",
      "in",
      "Edinb.",
      "New",
      "Philos.",
      "Journ.",
      "18",
      "(1835)",
      "180.",
      "Thysanolaena",
      "acarifera",
      "Arn.",
      "&",
      "Nees",
      "in",
      "Nov.",
      "Act.",
      "Acad.",
      "Nat.",
      "Cur.",
      "1",
      "9",
      "(1843)",
      "Suppl.",
      "1:",
      "181,",
      "Vidal",
      "Rev.",
      "PI.",
      "Vase.",
      "Filip.",
      "(1886)",
      "289.",
      "Luzon",
      "(Ilocos",
      "Norte,",
      "Apayao,",
      "Bontoc,",
      "Benguet,",
      "Nueva",
      "Vizcaya,",
      "Nueva",
      "Ecija,",
      "Bulacan,",
      "Zambales,",
      "Bataan,",
      "Laguna,",
      "Tayabas,",
      "Sorsogon),",
      "Mindoro,",
      "Palawan,",
      "Mindanao.",
      "On",
      "banks",
      "of",
      "ravines,",
      "slopes,",
      "about",
      "cliffs,",
      "etc,",
      "at",
      "low",
      "and",
      "\"medium,",
      "altitudes,",
      "ascending",
      "to",
      "1,600",
      "m.",
      "India",
      "through",
      "Malaya",
      "to",
      "New",
      "Guinea.",
      "Local",
      "names:",
      "Bugubui",
      "(Pamp)",
      ";",
      "buybui",
      "(Ilk);",
      "eagadu",
      "(Bon);",
      "gatbo",
      "(Bik)",
      ";",
      "lasa",
      "(Tag);",
      "tagadeu",
      "(Bon)",
      ",",
      "tagisa",
      "(Sub);",
      "tambu",
      "(Tag);",
      "talankaran",
      "(Ig).",
      "24.",
      "DIGITARIA",
      "Scopoli",
      "DIGITARIA",
      "CHINENSIS",
      "Nees",
      "in",
      "Hook.",
      "&",
      "Arn.",
      "Bot.",
      "Beechey",
      "Voy.",
      "(1841)",
      "231.",
      "Paspalum",
      "ftlicidme",
      "Nees",
      "ex",
      "Thwaites",
      "Enum.",
      "PL",
      "Zeyl.",
      "(1859-64)",
      "358.",
      "Digitaria",
      "violascens",
      "Merr.",
      "in",
      "Philip.",
      "Journ.",
      "Sci.",
      "1",
      "(1906)",
      "Suppl.",
      "347,",
      "3",
      "(1908)",
      "Bot.",
      "396,",
      "Fl.",
      "Manila",
      "(1912)",
      "88,",
      "non",
      "Link.",
      "Batan",
      "Islands",
      "and",
      "northern",
      "Luzon",
      "to",
      "Palawan",
      "and",
      "Mindanao,",
      "in",
      "most",
      "islands",
      "and",
      "provinces,",
      "Merrill",
      "4148,",
      "9388,",
      "7107,",
      "7677,",
      "4788,",
      "Phil.",
      "PL",
      "17",
      "U,",
      "B.",
      "S.",
      "21715,",
      "14524,",
      "13939,",
      "8250",
      "Ramos.",
      "In",
      "open",
      "grasslands",
      "at",
      "low",
      "and",
      "medium",
      "altitudes.",
      "India",
      "to",
      "China",
      "and",
      "Malaya.",
      "Local",
      "names:",
      "Timi",
      "(Bon);",
      "tumi",
      "(Bon);",
      "ualisibis",
      "(Iv).",
      "DIGITARIA",
      "CORYMBOSA",
      "(Roxb)",
      "comb.",
      "nov.",
      "Panicum",
      "co-rymbosum",
      "Roxb.",
      "Hort.",
      "Beng.",
      "(1814)",
      "7,",
      "nomen",
      "nudum,",
      "Fl.",
      "Ind.",
      "1",
      "(1820)",
      "292.",
      "Panicum",
      "microbachne",
      "Presl",
      "Rel.",
      "Haenk.",
      "1",
      "(1828)",
      "298;",
      "Kunth",
      "Enum.",
      "1",
      "(1833)",
      "81.",
      "Digitaria",
      "consanguinea",
      "Merr.",
      "in",
      "Philip.",
      "Journ.",
      "Sci.",
      "1",
      "(1906)",
      "Suppl.",
      "347,",
      "3",
      "(1908)",
      "Bot.",
      "396,",
      "Fl.",
      "Manila",
      "(1912)",
      "88,",
      "Sp.",
      "Blancoanae",
      "(1918)",
      "64,",
      "non",
      "Gaudich.",
      "Panicum",
      "sanguinale",
      "Rolfe",
      "in",
      "Journ.",
      "Bot.",
      "23",
      "(1885)",
      "216;",
      "Vidal",
      "Phan.",
      "Cuming.",
      "Philip.",
      "(1885)",
      "157,",
      "non",
      "Linn.",
      "Digitaria",
      "lanosa",
      "Llanos",
      "Frag.",
      "PI.",
      "Filip.",
      "(1851)",
      "28;",
      "F-vill.",
      "&",
      "Naves",
      "in",
      "Blanco",
      "Fl.",
      "Filip.",
      "ed.",
      "3,",
      "4",
      "1",
      "(1880)",
      "19.",
      "Panicum",
      "gaudichaudii",
      "F-vill.",
      "Novis.",
      "App.",
      "(1882)",
      "311,",
      "non",
      "Kunth.",
      "Panicum",
      "pruriens",
      "Trin.",
      "var.",
      "glabrum",
      "Nees",
      "in",
      "Hook.",
      "Journ.",
      "Bot.",
      "Kew",
      "Miscel.",
      "2",
      "(1850)",
      "97.",
      "Throughout",
      "the",
      "Philippines",
      "at",
      "low",
      "and",
      "medium",
      "altitudes",
      "in",
      "open",
      "waste",
      "places,",
      "old",
      "clearings,",
      "etc,",
      "usually",
      "common,",
      "Merrill",
      "4-230,",
      "5347,",
      "7368,",
      "9276,",
      "Sp.",
      "Blancoanae",
      "787,",
      "Phil.",
      "PL",
      "126,",
      "Elmer",
      "18216,",
      "16818,",
      "164-17,",
      "9570,",
      "B.",
      "S.",
      "12036,",
      "13334,",
      "32736,",
      "14746",
      "Ramos.",
      "India",
      "to",
      "southern",
      "China",
      "and",
      "Formosa",
      "through",
      "Malaya",
      "to",
      "Samoa.",
      "Local",
      "names:",
      "Banana",
      "(Sub);",
      "bacilli",
      "(C.",
      "Bis);",
      "balisibis",
      "(Iv)",
      ";",
      "baud"
    ],
    "ner_tags": [
      "O",
      "O",
      "B-TAXON",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "I-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "I-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "I-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "B-HABITAT",
      "I-HABITAT",
      "I-HABITAT",
      "B-HABITAT",
      "O",
      "B-HABITAT",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "I-GEOGRAPHICAL_LOCATION",
      "O",
      "O",
      "B-TAXON",
      "O",
      "O",
      "B-TAXON",
      "O",
      "B-TAXON",
      "O",
      "B-TAXON",
      "O",
      "O",
      "B-TAXON",
      "O",
      "B-TAXON",
      "O",
      "O",
      "B-TAXON",
      "O",
      "B-TAXON",
      "O",
      "B-TAXON",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "O",
      "O",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "I-GEOGRAPHICAL_LOCATION",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "I-GEOGRAPHICAL_LOCATION",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-HABITAT",
      "I-HABITAT",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "O",
      "B-TAXON",
      "O",
      "B-TAXON",
      "O",
      "B-TAXON",
      "O",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "O",
      "O",
      "B-TAXON",
      "O",
      "O",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-TAXON",
      "I-TAXON",
      "I-TAXON",
      "I-TAXON",
      "I-TAXON",
      "I-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-HABITAT",
      "I-HABITAT",
      "I-HABITAT",
      "B-HABITAT",
      "I-HABITAT",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-TAXON",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "I-GEOGRAPHICAL_LOCATION",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "B-GEOGRAPHICAL_LOCATION",
      "O",
      "O",
      "B-TAXON",
      "O",
      "B-TAXON",
      "O",
      "O",
      "B-TAXON",
      "O",
      "O",
      "B-TAXON"
    ]
  }
}

注:部分内容因展示需要已被截断。

提示模板#

提示模板:

你是一个命名实体识别系统,能够识别以下类型的实体:
{entities}

请处理提供的文本,并使用 XML 风格的标签标记所有命名实体。

例如:
<person>John Smith</person> works at <organization>Google</organization> in <location>Mountain View</location>.

可用的实体标签:{entity_list}

说明:
1. 将你的完整回复用 <response>...</response> 标签包裹。
2. 在这些标签内,插入带有实体标签的原始文本。
3. 不得以任何方式修改原始文本(保留空格、标点、大小写等)。
4. 使用提供的确切标签名称标记所有你能识别的实体。
5. 不要包含解释,仅返回带标签的文本。
6. 如果实体范围重叠,请选择最具体的实体类型。
7. 确保每个开始标签都有对应的结束标签。

待处理文本:
{text}
少样本(Few-shot)模板
以下是命名实体识别的一些示例:

{fewshot}

你是一个命名实体识别系统,能够识别以下类型的实体:
{entities}

请处理提供的文本,并使用 XML 风格的标签标记所有命名实体。

例如:
<person>John Smith</person> works at <organization>Google</organization> in <location>Mountain View</location>.

可用的实体标签:{entity_list}

说明:
1. 将你的完整回复用 <response>...</response> 标签包裹。
2. 在这些标签内,插入带有实体标签的原始文本。
3. 不得以任何方式修改原始文本(保留空格、标点、大小写等)。
4. 使用提供的确切标签名称标记所有你能识别的实体。
5. 不要包含解释,仅返回带标签的文本。
6. 如果实体范围重叠,请选择最具体的实体类型。
7. 确保每个开始标签都有对应的结束标签。

待处理文本:
{text}

使用方法#

使用 CLI#

evalscope eval \
    --model YOUR_MODEL \
    --api-url OPENAI_API_COMPAT_URL \
    --api-key EMPTY_TOKEN \
    --datasets copious \
    --limit 10  # 正式评估时请删除此行

使用 Python#

from evalscope import run_task
from evalscope.config import TaskConfig

task_cfg = TaskConfig(
    model='YOUR_MODEL',
    api_url='OPENAI_API_COMPAT_URL',
    api_key='EMPTY_TOKEN',
    datasets=['copious'],
    limit=10,  # 正式评估时请删除此行
)

run_task(task_cfg=task_cfg)