融合局部-全局字符级关联特征的中文命名实体识别方法技术

技术编号:25599857 阅读:101 留言:0更新日期:2020-09-11 23:57
本发明专利技术涉及融合局部‑全局字符级关联特征的中文命名实体识别方法,属于计算机与信息科学技术领域。本发明专利技术首先将一段非结构化中文文本转化为一个初始数值向量序列;其次提取其中的字符级序列特征和局部‑全局字符级关联特征,形成特征向量序列;然后使用一个线性链式条件随机场对特征向量序列进行序列标注,得到标签序列;最后根据非结构化中文文本和标签序列,输出“实体&类别”对。本发明专利技术分别在Microsoft Research Asia和E‑commerce中文命名实体识别语料上进行实验,结果表明通过引入字符级序列特征和局部‑全局字符级关联特征,有效缓解了现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题,提高了F1值。

【技术实现步骤摘要】
融合局部-全局字符级关联特征的中文命名实体识别方法
本专利技术涉及融合局部-全局字符级关联特征的中文命名实体识别方法,属于计算机与信息科学

技术介绍
中文命名实体识别技术可以从非结构化中文文本中,判定实体的边界和实体的类别,形成结构化的“实体&类别”对作为输出。为了解决现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题,需要针对中文是以字符为基本单元的特点,研究融合局部-全局字符级关联特征的中文命名实体识别技术。因此,本专利技术将提供融合局部-全局字符级关联特征的中文命名实体识别方法来提高系统在非结构化中文文本上识别命名实体的能力。融合局部-全局字符级关联特征的中文命名实体识别方法需要解决的基本问题是:从非结构化中文文本中,判定实体的边界和实体的类别,形成结构化的“实体&类别”对作为输出。综观现有的中文命名实体识别方法,具体包括以下几种:1.基于人工特征的方法。人工特征即由研究人员基于特征工程方法设计得到。Chen等人于2006年使用一元语法、二元语法和类型特征来辅助分类器识别命名实体,而Han等人于2015年同样使用一元和二元语法特征。这表明某些人工特征确实有益于中文命名实体识别。然而,构造和筛选特征需要耗费大量人力和时间,且人工特征不能根据语言环境的变化进行自动调整。目前,基于计算资源和算法从语料中自动提取特征是一种更好的途径。2.基于神经网络自动提取特征的方法。神经网络自动提取特征的过程由计算机完成。Lu等设计的位置敏感skip-gram模型可以提取多原型中文字符级别特征。Zheng等人提供的神经网络结构联合提取字符特征和上下文特征。Yang等人应用卷积神经网络来提取n元语法特征。神经网络自动提取特征的限制在于神经网络结构对结果的影响难以详细解释。3.基于神经网络和额外知识的方法。神经网络自动提取特征和将额外知识转化为特征的过程均由计算机完成。Zhang和Yang提出lattice神经网络模型,将词和词序列信息作为额外知识引入到字符级别命名实体识别中。Peng和Dredze基于长短时记忆——条件随机场,提出针对中文分词和中文命名实体识别任务的联合训练模型,将词边界信息作为额外知识引入到命名实体识别任务中。Cao等人使用双向长短时记忆和自注意力模型搭建对抗迁移学习框架,充分使用额外知识——任务共享的词边界信息,并阻止中文分词任务特殊特征影响命名实体识别模型的训练。He和Sun使用双向长短时记忆-maxmargin神经网络提取特征,同时将领域外语料视为额外知识,进行跨领域学习,提升命名实体识别模型在领域内的效果。然而,额外知识意味着额外的计算开销,会降低方法的实际运行效率。综上所述,现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界,所以本专利技术提出融合局部-全局字符级关联特征的中文命名实体识别方法。
技术实现思路
本专利技术的目的是为缓解现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题,以提高中文命名实体识别的综合性能,提出融合局部-全局字符级关联特征的中文命名实体识别方法。本专利技术的设计原理为:首先查找字符-数值向量表,替换非结构化中文文本中的每一个字符为初始数值向量;接下来,初始数值向量序列经过一种特征提取模型的处理,得到对应的特征向量序列;然后,使用一个线性链式条件随机场对特征向量序列进行序列标注,得到标签序列;最后通过后处理,输出非结构化中文文本中的命名实体,表示为结构化的“实体&类别”对。本专利技术的技术方案是通过如下步骤实现的:步骤1,对非结构化中文文本进行字符-数值向量表查找。步骤1.1,获取公开的基于语言模型训练的字符-数值向量表。步骤1.2,依次选择非结构化中文文本中的字符,到字符-数值向量表中查找字符对应的数值向量并进行替换,将一段中文文本转化为一个初始数值向量序列。步骤2,提取初始数值向量序列的特征。步骤2.1,使用双向长短时记忆处理初始数值向量序列,再使用另一个双向长短时记忆处理前一个双向长短时记忆的输出,输出字符级序列特征向量序列。步骤2.2,使用若干个注意力头同时处理初始数值向量序列,对结果进行字符级串联,再使用一个非线性神经网络层进行处理,输出全局字符级关联特征向量序列。步骤2.3,使用卷积注意力网络(CAN)处理初始数值向量序列,输出局部-全局字符级关联特征向量序列。步骤2.4,将步骤2.1、步骤2.2和步骤2.3的输出在字符级别上串联,获得特征向量序列。步骤3,标注串联后的特征向量序列。步骤3.1,使用一个线性链式条件随机场对串联后的特征向量序列进行标注,得到标签序列。步骤4,对非结构化中文文本和标签序列进行后处理。步骤4.1,将非结构化中文文本和标签序列对齐,即字符和标签按前后顺序一一对应。步骤4.2,根据标签判定命名实体,以“实体&类别”对的形式输出。有益效果相比于现有的中文命名实体识别方法,本专利技术有效缓解现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题。附图说明图1为本专利技术融合局部-全局字符级关联特征的中文命名实体识别方法的原理图。具体实施方式为了更好地说明本专利技术的目的和优点,下面结合实例对本专利技术方法的实施方式做进一步详细说明。具体流程为:步骤1,对非结构化中文文本进行字符-数值向量表查找。步骤1.1,使用Peng和Dredze提供的字符-数值向量表。表中不同的字符对应不同的数值向量,不存在同一个字符对应两个及两个以上数值向量的情况。经统计,表中存在23992个字符,对应的数值向量均为100维。对于表中没有出现的字符,使用“</s>”来替代它们,并赋予“</s>”不同于其他字符的数值向量。步骤1.2,依次选择非结构化中文文本中的字符,到字符-数值向量表中查找字符对应的数值向量并进行替换,将一段中文文本转化为一个初始数值向量序列。步骤2,提取初始数值向量序列的特征。步骤2.1,提取字符级序列特征。使用双向长短时记忆处理初始数值向量序列,再使用另一个双向长短时记忆处理前一个双向长短时记忆的输出。一个双向长短时记忆包括前向和反向两个长短时记忆。前向长短时记忆以顺序(从左到右)处理序列数据,而反向长短时记忆以逆序(从右到左)处理序列数据。序列数据中每一个元素对应的前向长短时记忆和反向长短时记忆输出的串联结果即为双向长短时记忆的输出。长短时记忆是一种经过特殊设计的神经网络模型,接受前一时刻输出ht-1和当前时刻输入vt,经过输入门、遗忘门、cell和输出门的处理得到当前时刻输出。输入门控制进入cell的信息,其在当前时刻的状态it如式1所示。it=σ(Wvivt+Whiht-1+Wcict-1+bi)(1)其中σ为sigmoid函数,ct-1为前一时刻cell的状态,本文档来自技高网
...

【技术保护点】
1.融合局部-全局字符级关联特征的中文命名实体识别方法,其特征在于所述方法包括如下步骤:/n步骤1,对非结构化中文文本进行字符-数值向量表查找,包括:获取公开的基于语言模型训练的字符-数值向量表,然后依次选择非结构化中文文本中的字符,到字符-数值向量表中查找字符对应的数值向量并进行替换,将一段中文文本转化为一个初始数值向量序列;/n步骤2,提取初始数值向量序列的特征,包括:使用两个双向长短时记忆提取字符级序列特征,再使用若干个注意力头和一个非线性神经网络层提取全局字符级关联特征,以及使用卷积注意力网络提取局部-全局字符级关联特征,然后将三者的输出在字符级别上串联,获得串联后的特征向量序列;/n步骤3,标注串联后的特征向量序列,包括:使用一个线性链式条件随机场对串联后的特征向量序列进行标注,得到标签序列;/n步骤4,对非结构化中文文本和标签序列进行后处理,包括:将非结构化中文文本和标签序列对齐,即字符和标签按前后顺序一一对应,然后根据标签判定命名实体,以“实体&类别”对的形式输出。/n

【技术特征摘要】
1.融合局部-全局字符级关联特征的中文命名实体识别方法,其特征在于所述方法包括如下步骤:
步骤1,对非结构化中文文本进行字符-数值向量表查找,包括:获取公开的基于语言模型训练的字符-数值向量表,然后依次选择非结构化中文文本中的字符,到字符-数值向量表中查找字符对应的数值向量并进行替换,将一段中文文本转化为一个初始数值向量序列;
步骤2,提取初始数值向量序列的特征,包括:使用两个双向长短时记忆提取字符级序列特征,再使用若干个注意力头和一个非线性神经网络层提取全局字符级关联特征,以及使用卷积注意力网络提取局部-全局字符级关联特征,然后将三者的输出在字符级别上串联,获得串联后的特征向量序列;
步骤3,标注串联后的特征向量序列,包括:使用一个线性链式条件随机场对串联后的特征向量序列进行标注,得到标签序列;
步骤4,对非结构化中文文本和标签序列进行后处理,包括:将非结构化中文文本和标签序列对齐,即字符和标签按前后顺序一一对应,然后根据标签判定命名实体,以“实体&类别”对的形式输出。


2.根据权利要求1所述的融合局部-全局字符级关联特征的中文命名实体识别方法,其特征在于:步骤2中使用若干个注意力头同时处理初始数值向量序列,每个注意力头是一个基于点乘的软注意力模型Attention(QWQ,KWK,VWV),具体如式1所示;
Attention(QWQ,KWK,VWV)=softmax(QWQ(KWK)T)VWV(1)
其中Q、K和V都是初始数值向量序列构成的矩阵,WQ、WK和WV为权重;
然后,若干个注意力头处理后的结果在字符级别上进行串联,如式2所示;
MultiHead(Q,K,V)=Concat(head1,...,headh)WO



其中和WO是权重;
最后,使用一个非线性神经网络层进行后续处理,计算字符级关联...

【专利技术属性】
技术研发人员:罗森林尹继泽吴舟婷潘丽敏吴倩
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1