从规则到大模型：命名实体识别（NER）技术的演进与未来

Posted on 2026-05-24 In AI 技术

在自然语言处理（NLP）的浩瀚星空中，命名实体识别（Named Entity Recognition, 简称 NER） 一直是最基础、也最核心的任务之一。它是机器从非结构化文本中提取结构化知识的一把“利刃”。

无论你是构建一个智能客服系统、金融研报分析助手，还是医疗病历结构化平台，NER 都是那道绕不开的“基本盘”。简单来说，NER 的目的就是从文本中找出具有特定意义的实体，并将其分类到预定义的类别中，比如人名（PER）、地名（LOC）、机构名（ORG）、时间、金钱等。

例如，在句子 “马斯克于2022年以440亿美元收购了推特” 中，NER 系统需要精准地提取出：

马斯克 -> 人物 (PER)
2022年 -> 时间 (TIME)
440亿美元 -> 金额 (MONEY)
推特 -> 组织机构 (ORG)

回顾 NER 技术的发展史，可以说是一部从“人工规则”到“数据驱动”，再到“大规模预训练”的进化史。今天，我们将深入剖析 NER 技术的演进历程，探讨背后的核心算法，并手把手带你完成代码实战。

一、评价指标：如何衡量 NER 的好坏？

在深入技术细节之前，我们需要先明确如何评估一个 NER 模型的表现。NER 通常被转化为一个序列标注 任务，其核心指标是 F1 Score。

精确率：我预测出的实体中，有多少是真实的？
召回率：文本中真实的实体中，我找出了多少？
F1 Score (F1值)：Precision 和 Recall 的调和平均数。

需要注意的是，在 NER 任务中，我们通常使用严格匹配 的评估标准：即一个实体不仅类型要预测正确，实体的边界（起止位置）也必须完全正确才算一个 True Positive (TP)。

二、远古时代：基于规则与词典的方法

在统计机器学习兴起之前，NER 主要依靠语言学家和领域专家手工编写的规则和词典。

1. 正则表达式与字典匹配

最直观的方法是构建庞大的专有名词词典，然后通过字符串匹配来识别实体。对于电话号码、邮箱、身份证号等具有强规律的实体，正则表达式是首选。

import re

text = "请联系我，邮箱是 test@example.com，电话是 13800138000"
email_pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
phone_pattern = r'1[3-9]\d{9}'

print("邮箱:", re.findall(email_pattern, text))
print("电话:", re.findall(phone_pattern, text))

2. 局限性

规则方法的优点是准确率极高（在特定领域内），且不需要标注数据。但缺点显而易见：

代价高昂：需要大量人力构建词典和规则。
泛化能力差：互联网词汇日新月异（如“绝绝子”、“尊嘟假嘟”），规则难以覆盖。
维护困难：随着规则增多，规则之间容易产生冲突。

三、古典时代：统计机器学习的崛起

上世纪 90 年代末到 21 世纪初，统计机器学习方法开始统治 NLP 领域。这一时期的核心思想是：将 NER 转化为序列标注问题，并利用概率图模型来解决。

1. 隐马尔可夫模型 (HMM)

HMM 假设数据是由一个隐藏的状态序列（实体标签）生成的。它是一个生成模型，通过联合概率分布 $P(X, Y)$ 来建模。但由于 HMM 遵循严格的“齐次马尔可夫假设”（当前状态只依赖于前一个状态），其表达能力受限。

2. 条件随机场 (CRF) —— 一代宗师

为了克服 HMM 的缺点，Lafferty 等人在 2001 年提出了条件随机场 (CRF)。CRF 是一种判别式无向图模型，它直接对条件概率 $P(Y|X)$ 进行建模。

CRF 的精髓在于它不仅考虑了当前时刻的观测特征（当前词本身），还考虑了标签之间的转移特征（例如，B-PER 后面只能接 I-PER 或 O，绝对不可能接 I-LOC）。这种全局视角使得 CRF 在序列标注任务中表现出了极高的优越性。

在那个时代，一个典型的 NER 系统需要极其繁重的特征工程。开发者需要提取诸如词性、大小写、词干、前后缀、词窗等特征喂给 CRF 模型。

四、黄金时代：深度学习与 BiLSTM-CRF

随着 Word2Vec 等词向量的提出以及 GPU 计算能力的爆发，NLP 进入了深度学习时代。人工提取特征的历史一去不复返。

1. 神经网络的兴起

早期的尝试是使用基础的 RNN 或 CNN。CNN 可以捕捉局部 n-gram 特征，而 RNN 可以处理变长序列。但它们都面临着长距离依赖问题（梯度消失/爆炸）。

2. 王者登场：BiLSTM-CRF 架构

2015 年左右，Bidirectional LSTM (BiLSTM) 结合 CRF 的架构横空出世，迅速成为了 NER 的绝对 State-of-the-Art (SOTA)。

BiLSTM (双向长短期记忆网络)：前向 LSTM 和后向 LSTM 结合，能够完美捕捉句子中某个词在上下文（过去和未来）中的语义信息。
CRF 层：虽然 BiLSTM 提取了丰富的特征，但它只做到了局部最优（每次输出当前词的最大概率标签）。在顶部加上 CRF 层，可以学习到标签间的转移约束，从而保证输出的全局标签序列是合法的。

# 基于著名 NLP 框架 flair 的经典 BiLSTM-CRF 代码示例
from flair.data import Sentence
from flair.models import SequenceTagger

# 加载预训练的 BiLSTM-CRF 英文 NER 模型
tagger = SequenceTagger.load("ner")

text = "George Washington went to Washington state."
sentence = Sentence(text)

# 预测
tagger.predict(sentence)

# 输出结果
print(sentence.to_tagged_string())
# 输出: George <B-PER> Washington <E-PER> went to Washington <S-LOC> state .

BiLSTM-CRF 的伟大之处在于它实现了端到端的学习，完全抛弃了繁杂的特征工程，成为了当时工业界部署的绝对主力。

五、降维打击：预训练语言模型 (PLM) 时代

2017 年，Transformer 架构在《Attention is All You Need》中被提出。2018 年，Google 推出 BERT，彻底颠覆了整个 NLP 生态，NER 也迎来了“降维打击”。

1. 从 Word2Vec 到 BERT

Word2Vec 是静态词向量，无法解决一词多义的问题（例如“苹果”在“吃苹果”和“苹果公司”中向量相同）。
BERT 引入了 Transformer 的多头自注意力机制，能够根据上下文动态生成词向量。更为强大的是，BERT 采用了 MLM（掩码语言模型）的方式进行预训练，在海量无监督语料上学习了丰富的语言常识。

2. BERT-Softmax 与 BERT-CRF

将 BERT 应用于 NER 非常简单：将输入句子喂给 BERT，取其最后一层的输出向量，接上一个简单的全连接层进行分类。

尽管许多研究表明，在 BERT 之后接上 CRF 层（BERT-CRF）对指标有轻微的提升（特别是在边界控制上），但简单的 BERT-Softmax 架构在大部分场景下已经能够吊打曾经复杂的 BiLSTM-CRF 模型。工业界为了推理速度，往往直接采用 BERT-Softmax。

3. 关于中文 NER 的痛点：分词

在中文 NER 中，传统的做法是先进行分词，然后进行词级别的序列标注。但中文分词本身就存在难题（如“北京大学图书馆”怎么切分？），分词的误差会直接传递给 NER，即所谓的错误级联。

现代解决方案：直接采用字级别 的标注。BERT 对中文字符具有极强的建模能力，直接在字级别输出 BIO 标签，不仅避免了分词错误，还能有效处理嵌套实体。

六、代码实战：基于 Hugging Face 的现代 BERT NER

工业界目前最主流的做法是使用 Hugging Face 的 transformers 库。下面我们将演示如何使用预训练好的 BERT 模型进行一段中文文本的命名实体识别。

这里我们使用一个在中文 NER 数据集（如 Peoples Daily 人民日报数据集）上微调过的模型。

# 首先安装依赖: pip install transformers torch
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
import torch

# 1. 加载针对中文 NER 微调过的 BERT 模型 (以 uer/roberta-base-finetuned-cluener2020-chinese 为例)
model_name = "uer/roberta-base-finetuned-cluener2020-chinese"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# 2. 定义标签映射 (不同模型标签不同，这里假设该模型的标签集)
# 为了演示，我们直接使用 pipeline
nlp_ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")

# 3. 输入一段中文测试文本
text = "李雷和韩梅梅明天早上九点将在北京首都国际机场乘坐CA123航班飞往纽约。"

# 4. 执行预测
ner_results = nlp_ner(text)

# 5. 解析并打印结果
print(f"{'实体':<10} | {'类型':<10} | {'置信度':<10} | {'位置':<10}")
print("-" * 50)
for entity in ner_results:
    word = entity['word']
    entity_type = entity['entity_group']
    score = entity['score']
    start, end = entity['start'], entity['end']
    print(f"{word:<10} | {entity_type:<10} | {score:<10.4f} | {start}-{end}")

输出示例：

实体         | 类型       | 置信度      | 位置       
--------------------------------------------------
李雷         | PER        | 0.9985     | 0-2       
韩梅梅       | PER        | 0.9981     | 3-6       
明天早上九点 | TIME       | 0.9876     | 7-13      
北京首都国际机场 | LOC   | 0.9923     | 14-22     
CA123      | AIRCRAFT   | 0.9501     | 24-29     
纽约         | LOC        | 0.9991     | 31-33

注：aggregation_strategy="simple" 是 pipeline 的一个参数，它能将被 Tokenizer 切碎的子词重新聚合成一个完整的实体词，这在实际应用中极其关键。

七、大模型时代 (LLM)：NER 的范式转变

当时间来到 ChatGPT 爆发的时代，数以十亿、百亿计参数的大语言模型（LLM）展现出了惊人的涌现能力。NER 的范式再次发生了翻天覆地的变化：从“序列标注”转变为“生成式问答”。

1. Few-Shot 与 Zero-Shot NER

在传统深度学习时代，如果你想提取一个新领域的实体（比如“航空领域航班号”），你需要标注成千上万条数据重新训练模型。而借助 LLM，你只需要给出一段合适的 Prompt（提示词）：

System: 你是一个专业的实体抽取助手。请从用户提供的文本中提取出人物、地点和时间。以 JSON 格式输出。

User: 马斯克于2022年以440亿美元收购了推特。

Assistant:
1
2
3
4
5
{
  "PER": ["马斯克"],
  "TIME": ["2022年"],
  "ORG": ["推特"]
}

2. 代码实现：调用 OpenAI API 抽取实体

使用现代大模型进行 NER，核心不再是构建复杂的网络层，而是Prompt Engineering。

# 需安装 openai 库: pip install openai
from openai import OpenAI
import json

client = OpenAI(api_key="your-api-key")

def extract_entities_with_llm(text):
    prompt = f"""
    请从以下给定的文本中提取命名实体。
    你需要提取的类别包括：人物(PER)、地点(LOC)、组织机构(ORG)、时间(TIME)。
    请严格按照 JSON 格式返回，如果某个类别没有实体，请返回空列表。
    
    文本: {text}
    """
    
    response = client.chat.completions.create(
        model="gpt-3.5-turbo", # 或 gpt-4
        messages=[
            {"role": "system", "content": "你是一个专业的 NLP 信息抽取引擎，只输出 JSON 数据。"},
            {"role": "user", "content": prompt}
        ],
        temperature=0.0, # 保持输出稳定
    )
    
    result_str = response.choices[0].message.content
    return json.loads(result_str)

text = "苹果公司 CEO 蒂姆·库克宣布将于今年秋季在加利福尼亚发布新产品。"
entities = extract_entities_with_llm(text)
print(json.dumps(entities, ensure_ascii=False, indent=4))

输出示例：

{
    "ORG": [
        "苹果公司"
    ],
    "PER": [
        "蒂姆·库克"
    ],
    "TIME": [
        "今年秋季"
    ],
    "LOC": [
        "加利福尼亚"
    ]
}

3. LLM 在工业界 NER 的困境与破局

尽管大模型极度聪明，但在工业界的高并发、低延迟场景下，直接使用 LLM API 做 NER 面临三大痛点：

推理延迟高：动辄几秒的生成时间无法满足实时搜索、风控拦截的需求。
成本昂贵：处理千万级文本时，Token 费用是一笔巨款。
格式不稳定：大模型偶尔会产生幻觉，输出非标准 JSON 导致下游解析失败。

现代工业界最佳实践：LLM 蒸馏 + 小模型部署
目前最先进的玩法是“用魔法打败魔法”。流程如下：

利用大模型（GPT-4）作为数据增强引擎，批量读取无标签业务数据，生成高精度的 NER 标注数据。
利用这些高质量的标注数据，微调一个轻量级的判别式模型（如 RoBERTa-Softmax 或更小的 ERNIE 模型）。
将轻量级模型部署上线，利用 ONNX Runtime 或 TensorRT 极致压缩推理。

这种方案兼顾了大模型的泛化能力（零样本/少样本）和小模型的速度与低成本。

八、进阶挑战：NER 还有哪些未解之题？

尽管 NER 技术已经高度成熟，但实际业务中依然存在巨大的挑战：

1. 嵌套实体

很多时候，实体是相互包含的。例如：

“北京大学第三医院”
- 它是一个机构（ORG）。
- 其中的“北京”是一个地点（LOC）。
  传统的 BIO 序列标注无法解决嵌套问题。目前的解决思路包括：Span-Level 分类、超图、或者将其转化为机器阅读理解（MRC）任务。

2. 不连续实体

在医疗 NER 中尤为常见。例如：

“左耳和右耳疼痛”
这里存在两个症状实体：“左耳疼痛”和“右耳疼痛”。它们在文本序列上是不连续的。这需要更复杂的解码策略（如图神经网络或特定的标签设计）。

3. 多模态与跨语言 NER

随着短视频和社交媒体的兴起，纯文本 NER 已经不够用。如何利用图片、音频等辅助信息来识别文本中的实体（如看图识别人名），以及如何利用高资源语言（英语）的标注数据去提取低资源语言（如某些小语种）的实体，都是当前学术界的研究热点。

九、总结

回顾 NER 技术的演进历程，我们可以清晰地看到人工智能发展的缩影：

规则时代：重人工，轻机器，准确率高但召回率低。
统计机器学习时代 (HMM/CRF)：引入概率图模型，开启数据驱动，但受限于繁重的特征工程。
深度学习时代：BiLSTM-CRF 独领风骚，利用词向量实现端到端学习。
预训练时代：BERT 横空出世，大力出奇迹，Transformer 的注意力机制彻底改变了特征提取方式。
大模型时代：生成式 AI 重塑业务范式，NER 不再是孤立的分类任务，而变成了大模型通用语言理解能力的一部分。

对于当下的开发者和工程师而言，我们很幸运。我们不再需要从零手写 Viterbi 算法去解码 CRF，也不需要去苦苦调参 LSTM 的隐藏层维度。借助 Hugging Face、LangChain 等现代工具栈，我们只需几行代码就能调用人类迄今为止最强大的语言模型。

但技术背后的原理——如何理解上下文、如何建模序列依赖、如何处理边界——这些底层的工程智慧，依然是我们在 AI 浪潮中立足的根本。无论大模型如何发展，将非结构化数据转化为结构化知识的诉求永远不会改变，NER 的精神，必将伴随 AI 的演进而生生不息。

一、 评价指标：如何衡量 NER 的好坏？

二、 远古时代：基于规则与词典的方法