命名实体识别模型训练方法、识别方法及装置制造方法及图纸

技术编号:29674987 阅读:12 留言:0更新日期:2021-08-13 21:57
本发明专利技术提供一种命名实体识别模型训练方法、识别方法及装置,所述模型训练方法的初始神经网络模型由通过结合关键字符级别编码和词级别编码对科技论文数据进行向量表示,将字符级别向量和词级别向量引入双向长短期记忆网络能够挖掘上下文关系,同时挖掘关键词的语义特征,提升了分词边界的准确性;通过将字符级别向量引入自注意力机制模型,能够更高效地捕捉数据内部相关性,提升命名实体识别的准确率。

【技术实现步骤摘要】
命名实体识别模型训练方法、识别方法及装置
本专利技术涉及数据处理
,尤其涉及一种命名实体识别模型训练方法、识别方法及装置。
技术介绍
科技大数据可以定义为与科研相关的活动产生的海量数据,其以论文数据为主体,具有数据规模大,内容专业化,特征属性繁多的特点。科技学术会议数据包含某个领域内的论文集合。以学术会议为单位进行画像的构建,可以帮助科研人员快速获得有价值的科研信息,而构建画像的核心工作即为命名实体识别。命名实体识别(NamedEntityRecognition,NER)是自然语言处理领域中的一个重要研究方向,其目的是将给定文本中的实体按照预定义好的类别进行分类,是一种序列标注问题。学术会议论文数据的命名实体识别与通用领域的识别有一定区别,主要原因在于通用领域的数据集有较为严格的句子组成规范。但由于科研领域技术更新迭代快,导致论文数据集中有大量的专业术语。同时实体之间可能相互嵌套,增加了实体识别的难度。中文命名实体识别的效果和分词结果直接相关,如果在分词阶段发生错误,会严重影响识别效果。因此,亟需一种新的命名实体识别方法。
技术实现思路
本专利技术实施例提供了一种命名实体识别模型训练方法、识别方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决中文科技论文分词效果较差,导致识别结果准确率低的问题。本专利技术的技术方案如下:一方面,本专利技术提供一种命名实体识别模型训练方法,包括:获取多个科技论文数据,各科技论文数据包含一个或多个关键词,对各科技论文数据进行序列标注,以得到训练样本集;获取初始神经网络模型,所述初始神经网络模型对所述科技论文数据的各单个中文字符进行字符级别编码得到相应的字符级别向量、对所述科技论文数据的各关键词进行词级别编码得到相应的词级别向量;将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络,由所述双向长短期记忆网络输出第一特征向量;将各字符级别向量输入自注意力机制模块,将所述自注意力机制模块输出与原始的各字符级别向量连接得到第二特征向量;将所述第一特征向量与所述第二特征向量进行融合,并输入条件随机场后输出命名实体识别结果;采用所述训练样本集对所述初始神经网络模型进行训练,对所述双向长短期记忆网络、所述自注意力机制模块以及所述条件随机场的参数进行调整迭代,得到目标命名实体识别模型。在一些实施例中,所述初始神经网络模型采用word2vec模型获取各单个中文字符对应的字符级别向量以及各关键词对应的词级别向量。在一些实施例中,将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络,包括:将单个字符对应的字符级别向量和词级别向量进行归一化求和得到该字符对应的第一输入序列,并输入至所述双向长短期记忆网络,计算式为:;其中,为第j个字符对应的第一输入序列,为第j个字符对应的字符级别向量,为对应的归一化系数,为第j个字符所属关键词的词级别向量,为的归一化系数,b为第j个字符所属关键词的序数。在一些实施例中,将所述第一特征向量与所述第二特征向量进行融合,包括:将所述第一特征向量与所述第二特征向量进行归一化求和,计算式为:;;;其中,为所述科技论文数据第i个字符的特征值,为所述科技论文数据第i个字符经所述双向长短期记忆网络输出的特征值,为所述科技论文数据第i个字符经所述自注意力机制模块输出的特征值,为的归一化系数,为的归一化系数;e为自然底数。在一些实施例中,采用所述训练样本集对所述初始神经网络模型进行训练,包括:采用交叉熵函数作为损失函数,对所述双向长短期记忆网络、所述自注意力机制模块以及所述条件随机场的参数进行调整迭代。在一些实施例中,对各科技论文数据进行序列标注采用BIO标注。在一些实施例中,所述word2vec模型采用科技论文数据进行预训练。另一方面,本专利技术提供一种命名实体识别方法,包括:获取待处理的科技论文数据,将所述科技论文数据输入上述命名实体识别模型训练方法的目标命名实体识别模型中,输出命名实体识别结果。另一方面,本专利技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。另一方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述方法的步骤。本专利技术的有益效果至少是:所述命名实体识别模型训练方法、识别方法及装置中,所述模型训练方法的初始神经网络模型由通过结合关键字符级别编码和词级别编码对科技论文数据进行向量表示,将字符级别向量和词级别向量引入双向长短期记忆网络能够挖掘上下文关系,同时挖掘关键词的语义特征,提升了分词边界的准确性;通过将字符级别向量引入自注意力机制模型,能够更高效地捕捉数据内部相关性,提升命名实体识别的准确率。本专利技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本专利技术的实践而获知。本专利技术的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。本领域技术人员将会理解的是,能够用本专利技术实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本专利技术能够实现的上述和其他目的。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。在附图中:图1为本专利技术一实施例所述命名实体识别模型训练方法中初始神经网络模型工作逻辑示意图;图2为本专利技术一实施例所述命名实体识别模型训练方法中字符级别向量和词级别向量连接结构结构示意图;图3为本专利技术一实施例所述命名实体识别模型训练方法中初始神经网络模型结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本专利技术做进一步详细说明。在此,本专利技术的示意性实施方式及其说明用于解释本专利技术,但并不作为对本专利技术的限定。在此,还需要说明的是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。命名实体识别可以使用基于统计机器学习的方法,这首先需要用人工标注的语料进行有监督训练,然后利用训练好的机器学习模型实现预测。基于统计机器学习的模型有隐马尔可夫模型、最大熵模型、决策树、支持向量机等。但是,在基于统计机器学习的识别方法中,用于监督训练的数据需求巨大,需要人为的进行特征标注,代价太过昂贵,并且基于统计机器学习的方法对于不同形式或者领域的数据不能通用,泛化能力较差,相比于基于深度学习的识别方法,有较为明显的不足。基于本文档来自技高网...

【技术保护点】
1.一种命名实体识别模型训练方法,其特征在于,包括:/n获取多个科技论文数据,各科技论文数据包含一个或多个关键词,对各科技论文数据进行序列标注,以得到训练样本集;/n获取初始神经网络模型,所述初始神经网络模型对所述科技论文数据的各单个中文字符进行字符级别编码得到相应的字符级别向量、对所述科技论文数据的各关键词进行词级别编码得到相应的词级别向量;将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络,由所述双向长短期记忆网络输出第一特征向量;将各字符级别向量输入自注意力机制模块,将所述自注意力机制模块输出与原始的各字符级别向量连接得到第二特征向量;将所述第一特征向量与所述第二特征向量进行融合,并输入条件随机场后输出命名实体识别结果;/n采用所述训练样本集对所述初始神经网络模型进行训练,对所述双向长短期记忆网络、所述自注意力机制模块以及所述条件随机场的参数进行调整迭代,得到目标命名实体识别模型。/n

【技术特征摘要】
1.一种命名实体识别模型训练方法,其特征在于,包括:
获取多个科技论文数据,各科技论文数据包含一个或多个关键词,对各科技论文数据进行序列标注,以得到训练样本集;
获取初始神经网络模型,所述初始神经网络模型对所述科技论文数据的各单个中文字符进行字符级别编码得到相应的字符级别向量、对所述科技论文数据的各关键词进行词级别编码得到相应的词级别向量;将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络,由所述双向长短期记忆网络输出第一特征向量;将各字符级别向量输入自注意力机制模块,将所述自注意力机制模块输出与原始的各字符级别向量连接得到第二特征向量;将所述第一特征向量与所述第二特征向量进行融合,并输入条件随机场后输出命名实体识别结果;
采用所述训练样本集对所述初始神经网络模型进行训练,对所述双向长短期记忆网络、所述自注意力机制模块以及所述条件随机场的参数进行调整迭代,得到目标命名实体识别模型。


2.根据权利要求1所述的命名实体识别模型训练方法,其特征在于,所述初始神经网络模型采用word2vec模型获取各单个中文字符对应的字符级别向量以及各关键词对应的词级别向量。


3.根据权利要求2所述的命名实体识别模型训练方法,其特征在于,将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络,包括:
将单个字符对应的字符级别向量和词级别向量进行归一化求和得到该字符对应的第一输入序列,并输入至所述双向长短期记忆网络,计算式为:


其中,为第j个字符对应的第一输入序列,为第j个字符对应的字符级别向量,为对应的归一化系数,为第j个字符所属关键词的词级别向量,为的归一化系数,b为第j个字符所属关键词的序数。


4....

【专利技术属性】
技术研发人员:杜军平于润羽薛哲徐欣
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1