命名实体识别模型训练方法、识别方法及装置制造方法及图纸

技术编号：29674987 阅读：12 留言：0更新日期：2021-08-13 21:57

本发明专利技术提供一种命名实体识别模型训练方法、识别方法及装置，所述模型训练方法的初始神经网络模型由通过结合关键字符级别编码和词级别编码对科技论文数据进行向量表示，将字符级别向量和词级别向量引入双向长短期记忆网络能够挖掘上下文关系，同时挖掘关键词的语义特征，提升了分词边界的准确性；通过将字符级别向量引入自注意力机制模型，能够更高效地捕捉数据内部相关性，提升命名实体识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
命名实体识别模型训练方法、识别方法及装置
本专利技术涉及数据处理
，尤其涉及一种命名实体识别模型训练方法、识别方法及装置。
技术介绍
科技大数据可以定义为与科研相关的活动产生的海量数据，其以论文数据为主体，具有数据规模大，内容专业化，特征属性繁多的特点。科技学术会议数据包含某个领域内的论文集合。以学术会议为单位进行画像的构建，可以帮助科研人员快速获得有价值的科研信息，而构建画像的核心工作即为命名实体识别。命名实体识别（NamedEntityRecognition,NER）是自然语言处理领域中的一个重要研究方向，其目的是将给定文本中的实体按照预定义好的类别进行分类，是一种序列标注问题。学术会议论文数据的命名实体识别与通用领域的识别有一定区别，主要原因在于通用领域的数据集有较为严格的句子组成规范。但由于科研领域技术更新迭代快，导致论文数据集中有大量的专业术语。同时实体之间可能相互嵌套，增加了实体识别的难度。中文命名实体识别的效果和分词结果直接相关，如果在分词阶段发生错误，会严重影响识别效果。因此，亟需一种新的命名实体识别方法。
技术实现思路
本专利技术实施例提供了一种命名实体识别模型训练方法、识别方法及装置，以消除或改善现有技术中存在的一个或更多个缺陷，解决中文科技论文分词效果较差，导致识别结果准确率低的问题。本专利技术的技术方案如下：一方面，本专利技术提供一种命名实体识别模型训练方法，包括：获取多个科技论文数据，各科技论文数据包含一个或多个关键词，对各科技论文数...

【技术保护点】
1.一种命名实体识别模型训练方法，其特征在于，包括：/n获取多个科技论文数据，各科技论文数据包含一个或多个关键词，对各科技论文数据进行序列标注，以得到训练样本集；/n获取初始神经网络模型，所述初始神经网络模型对所述科技论文数据的各单个中文字符进行字符级别编码得到相应的字符级别向量、对所述科技论文数据的各关键词进行词级别编码得到相应的词级别向量；将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络，由所述双向长短期记忆网络输出第一特征向量；将各字符级别向量输入自注意力机制模块，将所述自注意力机制模块输出与原始的各字符级别向量连接得到第二特征向量；将所述第一特征向量与所述第二特征向量进行融合，并输入条件随机场后输出命名实体识别结果；/n采用所述训练样本集对所述初始神经网络模型进行训练，对所述双向长短期记忆网络、所述自注意力机制模块以及所述条件随机场的参数进行调整迭代，得到目标命名实体识别模型。/n

【技术特征摘要】
1.一种命名实体识别模型训练方法，其特征在于，包括：
获取多个科技论文数据，各科技论文数据包含一个或多个关键词，对各科技论文数据进行序列标注，以得到训练样本集；
获取初始神经网络模型，所述初始神经网络模型对所述科技论文数据的各单个中文字符进行字符级别编码得到相应的字符级别向量、对所述科技论文数据的各关键词进行词级别编码得到相应的词级别向量；将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络，由所述双向长短期记忆网络输出第一特征向量；将各字符级别向量输入自注意力机制模块，将所述自注意力机制模块输出与原始的各字符级别向量连接得到第二特征向量；将所述第一特征向量与所述第二特征向量进行融合，并输入条件随机场后输出命名实体识别结果；
采用所述训练样本集对所述初始神经网络模型进行训练，对所述双向长短期记忆网络、所述自注意力机制模块以及所述条件随机场的参数进行调整迭代，得到目标命名实体识别模型。

2.根据权利要求1所述的命名实体识别模型训练方法，其特征在于，所述初始神经网络模型采用word2vec模型获取各单个中文字符对应的字符级别向量以及各关键词对应的词级别向量。

3.根据权利要求2所述的命名实体识别模型训练方法，其特征在于，将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络，包括：
将单个字符对应的字符级别向量和词级别向量进行归一化求和得到该字符对应的第一输入序列，并输入至所述双向长短期记忆网络，计算式为：

；
其中，为第j个字符对应的第一输入序列，为第j个字符对应的字符级别向量，为对应的归一化系数，为第j个字符所属关键词的词级别向量，为的归一化系数，b为第j个字符所属关键词的序数。

4....

【专利技术属性】
技术研发人员：杜军平，于润羽，薛哲，徐欣，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人