一种基于结构化信息的命名实体识别方法及系统技术方案

技术编号:24207961 阅读:33 留言:0更新日期:2020-05-20 15:30
本申请公开了一种基于结构化信息的命名实体识别方法,包括:结构化处理句子,并获得处理结果;根据所述处理结果,获得结构化特征;及根据所述结构化特征的分布,进行所述句子的预处理或者序列标注。与现有技术相比,本申请具有如下有益效果:提出基于字和词的结构化信息的中文命名实体识别方法,构建领域化的辞典进行切词,以保证实体边界的准确性,再从结构化特征入手,解析出每个字和词所包含的语义信息,然后再将这些信息作为判断实体的依据。

A named entity recognition method and system based on structured information

【技术实现步骤摘要】
一种基于结构化信息的命名实体识别方法及系统
本申请涉及命名实体识别领域,具体而言,涉及一种基于结构化信息的命名实体识别方法。
技术介绍
命名实体识别(NER)又称作专名识别,是信息抽取中的一项任务,应用范围广泛。命名实体一般指文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间等。NER系统就是从非结构化的输入文本中抽取出上述实体,并可以按照业务需求识别出更多类别的实体。当前,命名实体识别的算法主要是利用机器学习、深度学习模型,对单个句子进行序列标注。所谓序列标注是指对句子中对每个字或词进行标记,如“我爱中国”中,“中国”就是一个地名的实体。但是在实际应用中,某个词可能会指向多个实体,如“播放《红色》电视剧”中的“红色”是一个电视剧名的实体,而在“把灯光设为红色”中的“红色”是一种灯光颜色,是一个普通词。这种现象也称为一词多义。在处理这类多义词时,目前的算法模型只利用了字符或词的表征信息,没有利用到更深层次的结构化特征,难以准确预测实体,结合上面对例子,现有算法大概率会将所有句子中的“红色”都判断为电视剧名。另一方面,当前的命名实体识别算法,都会存在边界划分错误的问题。首先,中文的命名实体识别算法可以分为基于词的方法和基于字符的方法。基于词的方法是先进行分词,然后再在词上做实体判断。然而切词错误会导致实体边界错误,这个问题在开放领域很严重,因为跨领域分词仍然是一个未解决的难题。例如“南京市长江大桥”可能会被切分为“南京/市长/江大桥”,那么当前的算法可能会将“江大桥”判断为一个人名。基于字符的命名实体识别,不需要提前分词,直接在字上判断出该字是否属于实体的一部分。虽然可以克服一部分分词存在的缺陷,但是它无法利用显性的词和词序信息。
技术实现思路
本申请的主要目的在于提供一种基于结构化信息的命名实体识别方法,包括:结构化处理句子,并获得处理结果;根据所述处理结果,获得结构化特征;及根据所述结构化特征的分布,进行所述句子的预处理或者序列标注。可选地,结构化处理,并获得处理结果包括:利用数据库对所述句子进行分词处理,再对所述句子中的每一个词进行匹配检索,针对每一个词,得到三种处理结果:1)该词不存在于任意一个数据库中;2)该词仅存在于一个数据库中;3)该词存在两个或两个以上的数据库中。可选地,根据所述处理结果,获得结构化特征包括:根据所述处理结果,得到所述句子中每一个词的结构化特征,获得所述句子根据词的结构化特征的三类分布结果:1)所述句子中的每一个词都仅存在于一个数据库中;2)所述句子中有一个以上的词不存在于任意一个数据库中;所述句子中有一个以上的词存在于两个或两个以上的数据库中。可选地,根据所述结构化特征的分布,进行句子预处理或者序列标注包括:当所述结构化特征的分布结果属于类别1)时,规则层按对应的数据库的类型给予每个词相应的标签;当所述结构化特征的分布结果属于类别2)或3)时,对所述句子进行预处理,然后通过序列标注的算法模型对所述句子中的每一个词进行标注,从而判断出其实体类型。可选地,所述序列标注模型采用来深度学习方法,包括:构建词的特征,对句子中的每一个词做向量化处理,得到词向量;构建字符特征,将所述词向量输入给卷机神经网络,得到字符的特征;通过数据库对所述句子中对每一个词做匹配检索,得到每一个词的结构化特征,对所述结构化特征进行向量化处理,得到结构化特征向量;拼接所述词向量、所述字符特征及所述结构化特征向量,得到拼接结果,输入所述拼接结果至双向长短期记忆模型,得到隐层向量;输入所述隐层向量至全连接网络,得到深度学习中未经过归一化处理的概率分布;输入所述深度学习中未经过归一化处理的概率分布至条件随机场,得到实体标签。可选地,所述预处理包括:停用词识别、数值变换、错别字修正。根据本申请的一方面,提供了一种基于结构化信息的命名实体识别系统,包括:预处理模块、结构化处理模块、规则层模块及序列标注模型模块,其中所述结构化处理模块用于结构化处理句子,并获得处理结果,且根据所述处理结果,获得结构化特征;所述预处理模块用于根据所述结构化特征的分布,进行句子预处理;所述规则层模块用于通过所述序列标注模块根据所述结构化特征的分布,进行句子序列标注。本申请还公开了一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。本申请还公开了一种计算机可读存储介质,非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述任一项所述的方法。本申请还公开了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述任一项所述的方法。与现有技术相比,本申请具有如下有益效果:在字和词的结构化信息基础上做命名实体识别。通过对句子中的字和词解析出结构化特征,分析结构化特征所包含的语义信息,作为实体类型判断的依据;在序列标注模型输入的向量化操作上,将词向量、通过辞典匹配检索得到的结构化特征、通过CNN编码得到的字符特征进行了融合。命名实体识别系统,应用结构化特征对句子划分了三种类型,可分别通过规则层和序列标注模型进行实体类别的判断。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和有益效果变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1-图3是根据本申请一个实施例的基于结构化信息的命名实体识别方法的流程示意图;图4-图5是根据本申请一个实施例的序列标注流程示意图;图6是根据本申请一个实施例的计算机设备的示意图;以及图7是根据本申请一个实施例的计算机可读存储介质的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例本文档来自技高网
...

【技术保护点】
1.一种基于结构化信息的命名实体识别方法,其特征在于,包括:/n结构化处理句子,并获得处理结果;/n根据所述处理结果,获得结构化特征;及/n根据所述结构化特征的分布,进行所述句子的预处理或者序列标注。/n

【技术特征摘要】
1.一种基于结构化信息的命名实体识别方法,其特征在于,包括:
结构化处理句子,并获得处理结果;
根据所述处理结果,获得结构化特征;及
根据所述结构化特征的分布,进行所述句子的预处理或者序列标注。


2.根据权利要求1所述的基于结构化信息的命名实体识别方法,其特征在于,结构化处理,并获得处理结果包括:利用数据库对所述句子进行分词处理,再对所述句子中的每一个词进行匹配检索,针对每一个词,得到三种处理结果:1)该词不存在于任意一个数据库中;2)该词仅存在于一个数据库中;3)该词存在两个或两个以上的数据库中。


3.根据权利要求2所述的基于结构化信息的命名实体识别方法,其特征在于,根据所述处理结果,获得结构化特征包括:
根据所述处理结果,得到所述句子中每一个词的结构化特征,获得所述句子根据词的结构化特征的三类分布结果:1)所述句子中的每一个词都仅存在于一个数据库中;2)所述句子中有一个以上的词不存在于任意一个数据库中;所述句子中有一个以上的词存在于两个或两个以上的数据库中。


4.根据权利要求3所述的基于结构化信息的命名实体识别方法,其特征在于,根据所述结构化特征的分布,进行句子预处理或者序列标注包括:
当所述结构化特征的分布结果属于类别1)时,规则层按对应的数据库的类型给予每个词相应的标签;当所述结构化特征的分布结果属于类别2)或3)时,对所述句子进行预处理,然后通过序列标注的算法模型对所述句子中的每一个词进行标注,从而判断出其实体类型。


5.根据权利要求4所述的基于结构化信息的命名实体识别方法,其特征在于,所述序列标注模型采用来深度学习方法,包括:
构建词的特征,对句子中的每一个词做向量化处理,得到词向量;
构建...

【专利技术属性】
技术研发人员:周彬牛迪任天成
申请(专利权)人:杭州涂鸦信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1