Copious#
概述#
Copious 语料库是一个用于生物多样性实体识别的黄金标准语料库,包含从生物多样性遗产图书馆(Biodiversity Heritage Library)下载的 668 篇文档,涵盖超过 26,000 个句子和 28,000 多个实体,内容涉及分类学和生态学信息。
任务描述#
任务类型:生物多样性命名实体识别(NER)
输入:生物多样性文献文本
输出:识别出的生物多样性实体片段
领域:生物多样性、生态学、分类学
主要特点#
来自生物多样性遗产图书馆的 668 篇文档
超过 26,000 个句子
超过 28,000 个实体标注
五种生物多样性专用实体类型
生物多样性 NLP 的黄金标准
评估说明#
默认配置使用 5-shot 评估
评估指标:精确率(Precision)、召回率(Recall)、F1 分数(F1-Score)、准确率(Accuracy)
实体类型:TAXON(分类单元)、GEOGRAPHICAL_LOCATION(地理位置)、HABITAT(栖息地)、PERSON(人物)、TEMPORAL_EXPRESSION(时间表达)
属性#
属性 |
值 |
|---|---|
基准测试名称 |
|
数据集 ID |
|
论文 |
N/A |
标签 |
|
指标 |
|
默认示例数 |
5-shot |
评估集 |
|
训练集 |
|
数据统计#
统计数据不可用。
样例示例#
子集: default
{
"input": [
{
"id": "a4f5bffd",
"content": "Here are some examples of named entity recognition:\n\nInput:\nFAMILY SERRANIDAE — SCHULTZ 363 Genus PLECTROPOMUS Oken Plectropomus Oken, Isis, p. 1182] 1782 (on \"Les Plectropomes\" Cuvier, Rgne animal, vol. 2, p. 277, 1817). (Genotype, Bodianus ... [TRUNCATED] ... 9276, Sp. Blancoanae 787, Phil. PL 126, Elmer 18216, 16818, 164-17, 9570, B. S. 12036, 13334, 32736, 14746 Ramos. India to southern China and Formosa through Malaya to Samoa. Local names: Banana (Sub); bacilli (C. Bis); balisibis (Iv) ; baud\n"
}
],
"target": "<response>Vo] l <taxon>GRAMINEAE</taxon> 53 23. <taxon>THYSANOLAENA Nees</taxon> <taxon>THYSANOLAENA MAXIMA (Roxb) O. Kuntze</taxon> Rev. Gen. PI. (1891) 794; Pilger in Perk. Frag. Fl. Philip. (1904) 141; Merr. in Philip. Journ. Si. 1 (1906) ... [TRUNCATED] ... aphical_location>Malaya</geographical_location> to <geographical_location>Samoa.</geographical_location> Local names: <taxon>Banana</taxon> (Sub); <taxon>bacilli</taxon> (C. Bis); <taxon>balisibis</taxon> (Iv) ; <taxon>baud</taxon></response>",
"id": 0,
"group_id": 0,
"metadata": {
"tokens": [
"Vo]",
"l",
"GRAMINEAE",
"53",
"23.",
"THYSANOLAENA",
"Nees",
"THYSANOLAENA",
"MAXIMA",
"(Roxb)",
"O.",
"Kuntze",
"Rev.",
"Gen.",
"PI.",
"(1891)",
"794;",
"Pilger",
"in",
"Perk.",
"Frag.",
"Fl.",
"Philip.",
"(1904)",
"141;",
"Merr.",
"in",
"Philip.",
"Journ.",
"Si.",
"1",
"(1906)",
"Suppl.",
"343.",
"Agrostis",
"maxima",
"Roxb.",
"Fl.",
"Ind.",
"1",
"(1820)",
"319.",
"Thysanolaena",
"agrostis",
"Nees",
"in",
"Edinb.",
"New",
"Philos.",
"Journ.",
"18",
"(1835)",
"180.",
"Thysanolaena",
"acarifera",
"Arn.",
"&",
"Nees",
"in",
"Nov.",
"Act.",
"Acad.",
"Nat.",
"Cur.",
"1",
"9",
"(1843)",
"Suppl.",
"1:",
"181,",
"Vidal",
"Rev.",
"PI.",
"Vase.",
"Filip.",
"(1886)",
"289.",
"Luzon",
"(Ilocos",
"Norte,",
"Apayao,",
"Bontoc,",
"Benguet,",
"Nueva",
"Vizcaya,",
"Nueva",
"Ecija,",
"Bulacan,",
"Zambales,",
"Bataan,",
"Laguna,",
"Tayabas,",
"Sorsogon),",
"Mindoro,",
"Palawan,",
"Mindanao.",
"On",
"banks",
"of",
"ravines,",
"slopes,",
"about",
"cliffs,",
"etc,",
"at",
"low",
"and",
"\"medium,",
"altitudes,",
"ascending",
"to",
"1,600",
"m.",
"India",
"through",
"Malaya",
"to",
"New",
"Guinea.",
"Local",
"names:",
"Bugubui",
"(Pamp)",
";",
"buybui",
"(Ilk);",
"eagadu",
"(Bon);",
"gatbo",
"(Bik)",
";",
"lasa",
"(Tag);",
"tagadeu",
"(Bon)",
",",
"tagisa",
"(Sub);",
"tambu",
"(Tag);",
"talankaran",
"(Ig).",
"24.",
"DIGITARIA",
"Scopoli",
"DIGITARIA",
"CHINENSIS",
"Nees",
"in",
"Hook.",
"&",
"Arn.",
"Bot.",
"Beechey",
"Voy.",
"(1841)",
"231.",
"Paspalum",
"ftlicidme",
"Nees",
"ex",
"Thwaites",
"Enum.",
"PL",
"Zeyl.",
"(1859-64)",
"358.",
"Digitaria",
"violascens",
"Merr.",
"in",
"Philip.",
"Journ.",
"Sci.",
"1",
"(1906)",
"Suppl.",
"347,",
"3",
"(1908)",
"Bot.",
"396,",
"Fl.",
"Manila",
"(1912)",
"88,",
"non",
"Link.",
"Batan",
"Islands",
"and",
"northern",
"Luzon",
"to",
"Palawan",
"and",
"Mindanao,",
"in",
"most",
"islands",
"and",
"provinces,",
"Merrill",
"4148,",
"9388,",
"7107,",
"7677,",
"4788,",
"Phil.",
"PL",
"17",
"U,",
"B.",
"S.",
"21715,",
"14524,",
"13939,",
"8250",
"Ramos.",
"In",
"open",
"grasslands",
"at",
"low",
"and",
"medium",
"altitudes.",
"India",
"to",
"China",
"and",
"Malaya.",
"Local",
"names:",
"Timi",
"(Bon);",
"tumi",
"(Bon);",
"ualisibis",
"(Iv).",
"DIGITARIA",
"CORYMBOSA",
"(Roxb)",
"comb.",
"nov.",
"Panicum",
"co-rymbosum",
"Roxb.",
"Hort.",
"Beng.",
"(1814)",
"7,",
"nomen",
"nudum,",
"Fl.",
"Ind.",
"1",
"(1820)",
"292.",
"Panicum",
"microbachne",
"Presl",
"Rel.",
"Haenk.",
"1",
"(1828)",
"298;",
"Kunth",
"Enum.",
"1",
"(1833)",
"81.",
"Digitaria",
"consanguinea",
"Merr.",
"in",
"Philip.",
"Journ.",
"Sci.",
"1",
"(1906)",
"Suppl.",
"347,",
"3",
"(1908)",
"Bot.",
"396,",
"Fl.",
"Manila",
"(1912)",
"88,",
"Sp.",
"Blancoanae",
"(1918)",
"64,",
"non",
"Gaudich.",
"Panicum",
"sanguinale",
"Rolfe",
"in",
"Journ.",
"Bot.",
"23",
"(1885)",
"216;",
"Vidal",
"Phan.",
"Cuming.",
"Philip.",
"(1885)",
"157,",
"non",
"Linn.",
"Digitaria",
"lanosa",
"Llanos",
"Frag.",
"PI.",
"Filip.",
"(1851)",
"28;",
"F-vill.",
"&",
"Naves",
"in",
"Blanco",
"Fl.",
"Filip.",
"ed.",
"3,",
"4",
"1",
"(1880)",
"19.",
"Panicum",
"gaudichaudii",
"F-vill.",
"Novis.",
"App.",
"(1882)",
"311,",
"non",
"Kunth.",
"Panicum",
"pruriens",
"Trin.",
"var.",
"glabrum",
"Nees",
"in",
"Hook.",
"Journ.",
"Bot.",
"Kew",
"Miscel.",
"2",
"(1850)",
"97.",
"Throughout",
"the",
"Philippines",
"at",
"low",
"and",
"medium",
"altitudes",
"in",
"open",
"waste",
"places,",
"old",
"clearings,",
"etc,",
"usually",
"common,",
"Merrill",
"4-230,",
"5347,",
"7368,",
"9276,",
"Sp.",
"Blancoanae",
"787,",
"Phil.",
"PL",
"126,",
"Elmer",
"18216,",
"16818,",
"164-17,",
"9570,",
"B.",
"S.",
"12036,",
"13334,",
"32736,",
"14746",
"Ramos.",
"India",
"to",
"southern",
"China",
"and",
"Formosa",
"through",
"Malaya",
"to",
"Samoa.",
"Local",
"names:",
"Banana",
"(Sub);",
"bacilli",
"(C.",
"Bis);",
"balisibis",
"(Iv)",
";",
"baud"
],
"ner_tags": [
"O",
"O",
"B-TAXON",
"O",
"O",
"B-TAXON",
"I-TAXON",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"O",
"O",
"O",
"O",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"I-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"I-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"I-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"B-GEOGRAPHICAL_LOCATION",
"O",
"B-HABITAT",
"I-HABITAT",
"I-HABITAT",
"B-HABITAT",
"O",
"B-HABITAT",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"B-GEOGRAPHICAL_LOCATION",
"I-GEOGRAPHICAL_LOCATION",
"O",
"O",
"B-TAXON",
"O",
"O",
"B-TAXON",
"O",
"B-TAXON",
"O",
"B-TAXON",
"O",
"O",
"B-TAXON",
"O",
"B-TAXON",
"O",
"O",
"B-TAXON",
"O",
"B-TAXON",
"O",
"B-TAXON",
"O",
"O",
"B-TAXON",
"I-TAXON",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"O",
"O",
"O",
"B-GEOGRAPHICAL_LOCATION",
"I-GEOGRAPHICAL_LOCATION",
"O",
"B-GEOGRAPHICAL_LOCATION",
"I-GEOGRAPHICAL_LOCATION",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-HABITAT",
"I-HABITAT",
"O",
"O",
"O",
"O",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"O",
"B-TAXON",
"O",
"B-TAXON",
"O",
"B-TAXON",
"O",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"O",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"O",
"O",
"B-TAXON",
"O",
"O",
"O",
"O",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-TAXON",
"I-TAXON",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-TAXON",
"I-TAXON",
"I-TAXON",
"I-TAXON",
"I-TAXON",
"I-TAXON",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"O",
"O",
"O",
"O",
"O",
"B-HABITAT",
"I-HABITAT",
"I-HABITAT",
"B-HABITAT",
"I-HABITAT",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-TAXON",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"B-GEOGRAPHICAL_LOCATION",
"I-GEOGRAPHICAL_LOCATION",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"B-GEOGRAPHICAL_LOCATION",
"O",
"O",
"B-TAXON",
"O",
"B-TAXON",
"O",
"O",
"B-TAXON",
"O",
"O",
"B-TAXON"
]
}
}
注:部分内容因展示需要已被截断。
提示模板#
提示模板:
你是一个命名实体识别系统,能够识别以下类型的实体:
{entities}
请处理提供的文本,并使用 XML 风格的标签标记所有命名实体。
例如:
<person>John Smith</person> works at <organization>Google</organization> in <location>Mountain View</location>.
可用的实体标签:{entity_list}
说明:
1. 将你的完整回复用 <response>...</response> 标签包裹。
2. 在这些标签内,插入带有实体标签的原始文本。
3. 不得以任何方式修改原始文本(保留空格、标点、大小写等)。
4. 使用提供的确切标签名称标记所有你能识别的实体。
5. 不要包含解释,仅返回带标签的文本。
6. 如果实体范围重叠,请选择最具体的实体类型。
7. 确保每个开始标签都有对应的结束标签。
待处理文本:
{text}
少样本(Few-shot)模板
以下是命名实体识别的一些示例:
{fewshot}
你是一个命名实体识别系统,能够识别以下类型的实体:
{entities}
请处理提供的文本,并使用 XML 风格的标签标记所有命名实体。
例如:
<person>John Smith</person> works at <organization>Google</organization> in <location>Mountain View</location>.
可用的实体标签:{entity_list}
说明:
1. 将你的完整回复用 <response>...</response> 标签包裹。
2. 在这些标签内,插入带有实体标签的原始文本。
3. 不得以任何方式修改原始文本(保留空格、标点、大小写等)。
4. 使用提供的确切标签名称标记所有你能识别的实体。
5. 不要包含解释,仅返回带标签的文本。
6. 如果实体范围重叠,请选择最具体的实体类型。
7. 确保每个开始标签都有对应的结束标签。
待处理文本:
{text}
使用方法#
使用 CLI#
evalscope eval \
--model YOUR_MODEL \
--api-url OPENAI_API_COMPAT_URL \
--api-key EMPTY_TOKEN \
--datasets copious \
--limit 10 # 正式评估时请删除此行
使用 Python#
from evalscope import run_task
from evalscope.config import TaskConfig
task_cfg = TaskConfig(
model='YOUR_MODEL',
api_url='OPENAI_API_COMPAT_URL',
api_key='EMPTY_TOKEN',
datasets=['copious'],
limit=10, # 正式评估时请删除此行
)
run_task(task_cfg=task_cfg)