融合局部-全局字符级关联特征的中文命名实体识别方法技术

技术编号：25599857 阅读：101 留言：0更新日期：2020-09-11 23:57

本发明专利技术涉及融合局部‑全局字符级关联特征的中文命名实体识别方法，属于计算机与信息科学技术领域。本发明专利技术首先将一段非结构化中文文本转化为一个初始数值向量序列；其次提取其中的字符级序列特征和局部‑全局字符级关联特征，形成特征向量序列；然后使用一个线性链式条件随机场对特征向量序列进行序列标注，得到标签序列；最后根据非结构化中文文本和标签序列，输出“实体&类别”对。本发明专利技术分别在Microsoft Research Asia和E‑commerce中文命名实体识别语料上进行实验，结果表明通过引入字符级序列特征和局部‑全局字符级关联特征，有效缓解了现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题，提高了F1值。

全部详细技术资料下载

【技术实现步骤摘要】
融合局部-全局字符级关联特征的中文命名实体识别方法
本专利技术涉及融合局部-全局字符级关联特征的中文命名实体识别方法，属于计算机与信息科学

技术介绍
中文命名实体识别技术可以从非结构化中文文本中，判定实体的边界和实体的类别，形成结构化的“实体&类别”对作为输出。为了解决现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题，需要针对中文是以字符为基本单元的特点，研究融合局部-全局字符级关联特征的中文命名实体识别技术。因此，本专利技术将提供融合局部-全局字符级关联特征的中文命名实体识别方法来提高系统在非结构化中文文本上识别命名实体的能力。融合局部-全局字符级关联特征的中文命名实体识别方法需要解决的基本问题是：从非结构化中文文本中，判定实体的边界和实体的类别，形成结构化的“实体&类别”对作为输出。综观现有的中文命名实体识别方法，具体包括以下几种：1.基于人工特征的方法。人工特征即由研究人员基于特征工程方法设计得到。Chen等人于2006年使用一元语法、二元语法和类型特征来辅助分类器识别命名实体，而Han等人于2015年同样使用一元和二元语法特征。这表明某些人工特征确实有益于中文命名实体识别。然而，构造和筛选特征需要耗费大量人力和时间，且人工特征不能根据语言环境的变化进行自动调整。目前，基于计算资源和算法从语料中自动提取特征是一种更好的途径。2.基于神经网络自动提取特征的方法。神经网络自动提取特征的过程由计算机完成。Lu等设计的位置敏感sk...

【技术保护点】
1.融合局部-全局字符级关联特征的中文命名实体识别方法，其特征在于所述方法包括如下步骤：/n步骤1，对非结构化中文文本进行字符-数值向量表查找，包括：获取公开的基于语言模型训练的字符-数值向量表，然后依次选择非结构化中文文本中的字符，到字符-数值向量表中查找字符对应的数值向量并进行替换，将一段中文文本转化为一个初始数值向量序列；/n步骤2，提取初始数值向量序列的特征，包括：使用两个双向长短时记忆提取字符级序列特征，再使用若干个注意力头和一个非线性神经网络层提取全局字符级关联特征，以及使用卷积注意力网络提取局部-全局字符级关联特征，然后将三者的输出在字符级别上串联，获得串联后的特征向量序列；/n步骤3，标注串联后的特征向量序列，包括：使用一个线性链式条件随机场对串联后的特征向量序列进行标注，得到标签序列；/n步骤4，对非结构化中文文本和标签序列进行后处理，包括：将非结构化中文文本和标签序列对齐，即字符和标签按前后顺序一一对应，然后根据标签判定命名实体，以“实体&类别”对的形式输出。/n

【技术特征摘要】
1.融合局部-全局字符级关联特征的中文命名实体识别方法，其特征在于所述方法包括如下步骤：
步骤1，对非结构化中文文本进行字符-数值向量表查找，包括：获取公开的基于语言模型训练的字符-数值向量表，然后依次选择非结构化中文文本中的字符，到字符-数值向量表中查找字符对应的数值向量并进行替换，将一段中文文本转化为一个初始数值向量序列；
步骤2，提取初始数值向量序列的特征，包括：使用两个双向长短时记忆提取字符级序列特征，再使用若干个注意力头和一个非线性神经网络层提取全局字符级关联特征，以及使用卷积注意力网络提取局部-全局字符级关联特征，然后将三者的输出在字符级别上串联，获得串联后的特征向量序列；
步骤3，标注串联后的特征向量序列，包括：使用一个线性链式条件随机场对串联后的特征向量序列进行标注，得到标签序列；
步骤4，对非结构化中文文本和标签序列进行后处理，包括：将非结构化中文文本和标签序列对齐，即字符和标签按前后顺序一一对应，然后根据标签判定命名实体，以“实体&类别”对的形式输出。

2.根据权利要求1所述的融合局部-全局字符级关联特征的中文命名实体识别方法，其特征在于：步骤2中使用若干个注意力头同时处理初始数值向量序列，每个注意力头是一个基于点乘的软注意力模型Attention(QWQ，KWK，VWV)，具体如式1所示；
Attention(QWQ，KWK，VWV)＝softmax(QWQ(KWK)T)VWV(1)
其中Q、K和V都是初始数值向量序列构成的矩阵，WQ、WK和WV为权重；
然后，若干个注意力头处理后的结果在字符级别上进行串联，如式2所示；
MultiHead(Q，K，V)＝Concat(head1，...，headh)WO

其中和WO是权重；
最后，使用一个非线性神经网络层进行后续处理，计算字符级关联...

【专利技术属性】
技术研发人员：罗森林，尹继泽，吴舟婷，潘丽敏，吴倩，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人