中文命名实体识别方法、系统、设备及存储介质技术方案

技术编号:30138106 阅读:24 留言:0更新日期:2021-09-23 14:53
本公开公开了中文命名实体识别方法、系统、设备及存储介质,包括:获取待识别的句子;将待识别的句子,输入到训练后的中文命名实体识别模型中,得到中文命名实体。本发明专利技术可以在自然语言描述的文本中提取出每个节点的多个特征信息。可以为每个待识别的句子识别出对应的中文命名实体。的中文命名实体。的中文命名实体。

【技术实现步骤摘要】
中文命名实体识别方法、系统、设备及存储介质


[0001]本公开涉及自然语言处理
,特别是涉及中文命名实体识别方法、系统、设备及存储介质。

技术介绍

[0002]本部分的陈述仅仅是提到了与本公开相关的
技术介绍
,并不必然构成现有技术。
[0003]随着深度学习的不断发展,自然语言处理这个领域也得到了更广泛的关注,尤其是对于上游任务,如:命名实体识别,上游任务的好坏直接影响下游任务的性能与精准度。命名实体识别在关系抽取,问答系统,情感分析,知识图谱的建立等任务中扮演着重要的角色。所以,如何提高命名实体识别的性能成为了当前迫切需要解决的任务。
[0004]自然语言处理是计算机科学领域的一个重要方向,它被称为“人工智能皇冠上的明珠”。自然语言处理是一门融合了语言学、计算机科学、数学于一体的学科,它的研究涉及到自然语言(人们日常使用语言)。自然语言处理主要应用于舆情监测、自动摘要、文本分类、机器翻译、语音识别、问题回答、文本分类等方面。
[0005]命名实体识别又被称为是“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。它的任务主要是包括这两个部分,一是实体边界识别,二是确定实体类别,即确定实体是人名、地名、机构名、或其他等。命名实体识别是自然语言处理的上游任务,命名实体识别的性能好坏直接影响下游任务的性能。
[0006]目前,对于中文命名实体识别(NER)的方法主要包括基于字符的NER模型和基于词的NER模型,中文命名实体识别与英文的命名实体识别因为语言类别的问题,中文NER比英文NER面临的挑战更多。如,中文NER不像英文NER一样天然有空格作为分割,中文没有明确的实体边界,其次,中文的组成结构复杂,且大多实体包含实体嵌套问题,故此,提升中文NER性能任务迫在眉睫。
[0007]命名实体识别的主要任务是识别文档中的特定的实体,如:人名、地名、时间、机构名等。然后再给这些实体打上特定的标签,一般情况下打标签的方式有BIO、BIOES这两种方式,如用BIOES打标签,B表示实体的开头,I表示实体的中间,E是实体的结尾,S表示的是单个实体,O表示不是要识别的实体。BIO方式跟BIOES一样,只是实体结尾的标签用I代替,单个实体直接用B表示。
[0008]在传统方法中,有基于词典的命名实体识别与基于规则的命名实体识别。基于词典的命名实体识别在很大程度上依赖语料库,同时会出现冲突问题导致性能下降。基于规则的命名实体识别,利用手工构造模板,通过实体与规则进行类型判断,但是规则的构建依赖于具体的语言、领域与文本风格,需要很多专业知识,耗时耗力耗资。目前最常用的有基于统计学习的命名实体识别,如隐马尔可夫模型,最大熵模型、支持向量机模型,条件随机场模型等。

技术实现思路

[0009]为了解决现有技术的不足,本公开提供了中文命名实体识别方法、系统、设备及存储介质;
[0010]第一方面,本公开提供了中文命名实体识别方法;
[0011]中文命名实体识别方法,包括:
[0012]获取待识别的句子;
[0013]将待识别的句子,输入到训练后的中文命名实体识别模型中,得到中文命名实体。
[0014]第二方面,本公开提供了中文命名实体识别系统;
[0015]中文命名实体识别系统,包括:
[0016]获取模块,其被配置为:获取待识别的句子;
[0017]识别模块,其被配置为:将待识别的句子,输入到训练后的中文命名实体识别模型中,得到中文命名实体。
[0018]第三方面,本公开还提供了一种电子设备,包括:
[0019]存储器,用于非暂时性存储计算机可读指令;以及
[0020]处理器,用于运行所述计算机可读指令,
[0021]其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
[0022]第四方面,本公开还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
[0023]与现有技术相比,本公开的有益效果是:
[0024]本专利技术可以在自然语言描述的文本中提取出每个节点的多个特征信息。可以为每个待识别的句子识别出对应的中文命名实体。
[0025]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0026]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
[0027]图1为第一个实施例的方法流程图。
具体实施方式
[0028]应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本专利技术使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。
[0029]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0030]在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0031]本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
[0032]实施例一
[0033]本实施例提供了中文命名实体识别方法;
[0034]中文命名实体识别方法,包括:
[0035]S101:获取待识别的句子;
[0036]S102:将待识别的句子,输入到训练后的中文命名实体识别模型中,得到中文命名实体。
[0037]进一步地,所述中文命名实体识别模型,包括:依次连接的门控图神经网络Gated Graph Neural Network(GGNN)、空洞卷积神经网络Iterated Dilated Convolutional Neural Networks(ID

CNNs)和条件随机场conditional Random Field(CRF)。
[0038]进一步地,所述训练后的中文命名实体识别模型,训练步骤包括:
[0039]构建训练集;所述训练集,包括已知中文命名实体的句子和多个词典;
[0040]基于训练集,构建门控图神经网络GGNN;
[0041]再将训练集,输入到门控图神经网络GGNN中,门控图神经网络GGNN对输入的每个字提取节点特征;
[0042]将节点特征,输入到空洞卷积神经网络ID

...

【技术保护点】

【技术特征摘要】
1.中文命名实体识别方法,其特征是,包括:获取待识别的句子;将待识别的句子,输入到训练后的中文命名实体识别模型中,得到中文命名实体。2.如权利要求1所述的中文命名实体识别方法,其特征是,所述中文命名实体识别模型,包括:依次连接的门控图神经网络GGNN、空洞卷积神经网络ID

CNNs和条件随机场CRF。3.如权利要求1所述的中文命名实体识别方法,其特征是,所述训练后的中文命名实体识别模型,训练步骤包括:构建训练集;所述训练集,包括已知中文命名实体的句子和多个词典;基于训练集,构建门控图神经网络GGNN;再将训练集,输入到门控图神经网络GGNN中,门控图神经网络GGNN对输入的每个字提取节点特征;将节点特征,输入到空洞卷积神经网络ID

CNNs中再进行特征提取,得到最终特征;将最终特征和已知中文命名实体的BIO标签,输入到条件随机场CRF中,得到训练后的中文实体识别模型。4.如权利要求1所述的中文命名实体识别方法,其特征是,所述BIO标签,B表示当前字属于中文命名实体的开头,I表示当前字属于中文命名实体的中间,O表示当前字不属于中文命名实体。5.如权利要求1所述的中文命名实体识别方法,其特征是,所述基于训练集,构建门控图神经网络GGNN;具体包括:在构建门控图神经网络GGNN的过程中,将已知中文命名实体的句子中的每个字视为一个节点,根据当前字与相邻字所组成的词是否归属于一个词典,来建立节点与之间的边;若当前字与相邻字所组成的词归属于一个词典,...

【专利技术属性】
技术研发人员:徐卫志龙开放赵晗于惠范胜玉耿艳芳曹洋蔡晓雅李广震
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1