基于深度学习的中文命名实体识别方法及系统技术方案

技术编号:35309412 阅读:15 留言:0更新日期:2022-10-22 13:00
本发明专利技术公开了基于深度学习的中文命名实体识别方法及系统;方法包括:获取待识别的字符串序列;将待识别的字符串序列中的每个字符均输入到训练后的中文命名实体识别模型中,输出中文命名实体识别结果;训练后的中文命名实体识别模型,工作原理包括:将输入的每个字符进行特征提取得到字符特征;将输入的每个字符进行笔画特征提取得到笔画特征;将每个字符的字符特征与笔画特征进行拼接,得到每个字符的第一拼接特征;将每个字符的第一拼接特征通过自注意力机制的处理,得到处理向量;将处理向量与每个字符中的单词信息进行拼接,得到每个字符的第二拼接特征;将第二拼接特征进行编码处理,得到编码向量;将编码向量进行解码处理,得到字符标签。得到字符标签。得到字符标签。

【技术实现步骤摘要】
基于深度学习的中文命名实体识别方法及系统


[0001]本专利技术涉及中文命名实体识别
,特别是涉及基于深度学习的中文命名实体识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]自然语言处理(NLP)是计算机科学领域与人工智能领域中研究的一个重要方向,它研究将原始的非结构化的文本数据处理成计算机可识别的二进制语言,该研究涉及自然语言,是一门集语言学、计算机科学和数学于一体的学科。NLP技术主要应用于舆情监测、机器翻译、文本分类、观点提取、自动摘要等场景。而以上应用大都涉及命名实体识别的研究。
[0004]命名实体识别(NER)是NLP领域下的一个子任务,主要研究识别文本里具有特定含义的实体,其中实体主要是指人名、地名、机构名等专有名词。在进行NER实验前,通常需要先对实体分类标注,然后再进行识别。其中,常用的标注方法有两种:BIO和BIOES,其中B代表实体的开头,I代表实体的中间部分,O代表当非实体部分,E代表实体的结尾,S代表单个实体。
[0005]相较于发展成熟的英文命名实体识别,由于中文命名实体识别发展起步较晚及中文本身的复杂性导致中文命名实体识别面临很多挑战:英文单词间有空格作为区分,而中文词汇间没有明确的边界,并且错误划分中文分词会降低整体识别性能;许多英文单词词性可通过前后缀进行判断,而中文词语词性复杂并且存在词性嵌套现象使嵌套实体无法被有效识别。这些问题的存在,也说明了提升中文命名实体识别任务的必要性和迫切性。
[0006]NER的研究方法主要有三种,一是早期基于词典和规则的方法,需要语言学专家人工设计规则模板,实体识别依赖于词典和规则的构造,适用于数据量较小的任务,当数据量较大时,规则构建难度大、可靠性低且人工设计规则模板所需时间周期长、可移植性差。二是基于统计学习的方法,用事先收集好的训练集文本通过数学建模和模型的训练,获取能标识文本中实体的有效特征。这种方法不需要人工设计规则模板、对语言学要求低,是一种常用的命名实体识别方法,其常用模型包括条件随机场模型、最大熵模型、隐马尔可夫模型等。但基于统计学习的方法需要大量的训练文本集,而获取、标注训练文本集则需要巨大的人工成本,并且不同特征的选取也会影响训练速度。三是基于深度学习的方法,该方法通过神经网络提取特征,无需手动提取特征,且特征信息会更加完善。随着深度学习的快速发展,许多有关深度学习的模型逐渐被应用到命名实体识别的研究上,如卷积神经网络模型、循环神经网络模型、双向长短时记忆模型等。

技术实现思路

[0007]为了解决现有技术的不足,本专利技术提供了基于深度学习的中文命名实体识别方法及系统;本专利技术能够有效提高实体识别的准确率。
[0008]第一方面,本专利技术提供了基于深度学习的中文命名实体识别方法;
[0009]基于深度学习的中文命名实体识别方法,包括:
[0010]获取待识别的字符串序列;
[0011]将待识别的字符串序列中的每个字符均输入到训练后的中文命名实体识别模型中,输出中文命名实体识别结果;
[0012]其中,训练后的中文命名实体识别模型,工作原理包括:将输入的每个字符进行特征提取得到字符特征;将输入的每个字符进行笔画特征提取得到笔画特征;将每个字符的字符特征与笔画特征进行拼接,得到每个字符的第一拼接特征;将每个字符的第一拼接特征通过自注意力机制的处理,得到处理向量;将处理向量与每个字符中的单词信息进行拼接,得到每个字符的第二拼接特征;将第二拼接特征进行编码处理,得到编码向量;将编码向量进行解码处理,得到字符标签。
[0013]第二方面,本专利技术提供了基于深度学习的中文命名实体识别系统;
[0014]基于深度学习的中文命名实体识别系统,包括:
[0015]获取模块,其被配置为:获取待识别的字符串序列;
[0016]识别模块,其被配置为:将待识别的字符串序列中的每个字符均输入到训练后的中文命名实体识别模型中,输出中文命名实体识别结果;
[0017]其中,训练后的中文命名实体识别模型,工作原理包括:将输入的每个字符进行特征提取得到字符特征;将输入的每个字符进行笔画特征提取得到笔画特征;将每个字符的字符特征与笔画特征进行拼接,得到每个字符的第一拼接特征;将每个字符的第一拼接特征通过自注意力机制的处理,得到处理向量;将处理向量与每个字符中的单词信息进行拼接,得到每个字符的第二拼接特征;将第二拼接特征进行编码处理,得到编码向量;将编码向量进行解码处理,得到字符标签。
[0018]第三方面,本专利技术还提供了一种电子设备,包括:
[0019]存储器,用于非暂时性存储计算机可读指令;以及
[0020]处理器,用于运行所述计算机可读指令,
[0021]其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
[0022]第四方面,本专利技术还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
[0023]第五方面,本专利技术还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
[0024]与现有技术相比,本专利技术的有益效果是:
[0025]本专利技术通过卷积神经网络模型CNN网络获取字符特征信息,将字符特征信息与字符笔画信息的算术平均值拼接后,利用自注意力机制Self

Attention处理得到处理向量,并将处理向量与字符的单词信息拼接后送入双向长短时记忆模型BiLSTM网络处理后,通过条件随机场进行解码,可以有效地提高中文命名实体识别的准确率。
附图说明
[0026]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0027]图1为实施例一的方法流程图;
[0028]图2为实施例一的模型内部结构示意图。
具体实施方式
[0029]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0030]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0031]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度学习的中文命名实体识别方法,其特征是,包括:获取待识别的字符串序列;将待识别的字符串序列中的每个字符均输入到训练后的中文命名实体识别模型中,输出中文命名实体识别结果;其中,训练后的中文命名实体识别模型,工作原理包括:将输入的每个字符进行特征提取得到字符特征;将输入的每个字符进行笔画特征提取得到笔画特征;将每个字符的字符特征与笔画特征进行拼接,得到每个字符的第一拼接特征;将每个字符的第一拼接特征通过自注意力机制的处理,得到处理向量;将处理向量与每个字符中的单词信息进行拼接,得到每个字符的第二拼接特征;将第二拼接特征进行编码处理,得到编码向量;将编码向量进行解码处理,得到字符标签。2.如权利要求1所述的基于深度学习的中文命名实体识别方法,其特征是,所述训练后的中文命名实体识别模型,其网络结构包括:并列的卷积神经网络CNN和第一双向长短时记忆网络Bi

LSTM;所述卷积神经网络CNN的输出端与第一拼接单元的输入端连接;所述第一双向长短时记忆网络Bi

LSTM的输出端与第一拼接单元的输入端连接;所述第一拼接单元的输出端与自注意力机制层的输入端连接;所述自注意力机制层额输出端和卷积神经网络的输入端均与第二拼接单元的输入端连接;所述第二拼接单元的输出端与第二双向长短时记忆网络的输入端连接;所述第二双向长短时记忆网络的输出端与条件随机场模型CRF的输入端连接;条件随机场模型CRF的输出端与输出层连接。3.如权利要求1所述的基于深度学习的中文命名实体识别方法,其特征是,所述训练后的中文命名实体识别模型,其训练过程包括:构建训练集;所述训练集为已知中文命名实体识别标签的字符串序列;将训练集,输入到中文命名实体识别模型中,对中文命名实体识别模型进行训练,得到训练后的中文命名实体识别模型。4.如权利要求1所述的基于深度学习的中文命名实体识别方法,其特征是,所述将输入的每个字符进行特征提取得到字符特征;具体包括:将输入的每个字符采用卷积神经网络CNN进行特征提取,得到字符特征。5.如权利要求1所述的基于深度学习的中文命名实体识别方法,其特征是,所述将输入的每个字符进行笔画特征提取得到笔画特征;具体包括:采用笔画工具,获取每个字符的笔画信息;将每个字符的笔画信息通过第一双向长短时记忆网络Bi

LSTM处理,...

【专利技术属性】
技术研发人员:徐卫志钟诚陆佃杰张桂娟于惠龙开放孙胤泰张晓冉李瑞琪
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1