一种基于实体话题关联度的领域命名实体去噪方法及系统技术方案

技术编号:26419586 阅读:32 留言:0更新日期:2020-11-20 14:15
本发明专利技术提出一种基于实体话题关联度的领域命名实体去噪方法及系统,包括:S1,获取待识别语料并通过一命名实体识别模型进行实体识别,得到实体列表;S2,将所述实体列表中的每一命名实体拆分为语义元素并通过一相似语义元素模型得到多个领域相关主题及其权重;S3,基于所述步骤S2得到的每一所述领域相关主题及主题的权重计算得到所述命名实体的评分;S4,设定一噪音阈值并根据噪音阈值筛选、过滤所述命名实体中的噪音实体。采用上述方案的领域命名实体去噪方法及系统,针对识别出来的命名实体,进行噪声识别过滤,去除识别错误的与领域不相关实体,以保留正确的实体进行知识图谱的构建。

【技术实现步骤摘要】
一种基于实体话题关联度的领域命名实体去噪方法及系统
本专利技术属于人工智能
,尤其涉及一种基于实体话题关联度的领域命名实体去噪方法及系统。
技术介绍
命名实体识别(namedEntityRecognition,简称nER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是构建知识图谱的基本步骤。在知识图谱构建中,命名实体构成了图谱中的点,实体之间的关系构成了图谱中的边。另外,相同领域的实体具有大量相似的语义元素,不同类型的语义元素通常意味着不同领域的实体,例如,“华为智慧屏”的相似的语义元素有“智慧”、“护眼”、“屏”、“手机”等。但是,由于命名实体识别模型无法做到100%的准确率,在构建图谱当中,常常会混入识别错误的非领域实体,影响用户对图谱的使用体验度。因此,需要一种对领域命名实体去噪的技术方案,提高实体识别准确率、提升用户体验。
技术实现思路
为解决上述的技术问题,本专利技术提出一种基于实体话题关联度的领域命名实体去噪声方法及系统,针对识别出来的命名实体,进行噪声识别过滤,去除识别错误的与领域不相关实体,以保留正确的实体进行知识图谱的构建。一方面,本专利技术公开了一种基于实体话题关联度的领域命名实体去噪方法,包括:S1,获取待识别语料并通过一命名实体识别模型进行实体识别,得到实体列表;S2,将所述实体列表中的每一命名实体拆分为语义元素并通过一相似语义元素模型经学习、筛选得到多个领域相关主题及其权重;S3,基于所述步骤S2得到的每一所述领域相关主题及主题的权重计算得到所述命名实体的评分;S4,设定一噪音阈值并根据噪音阈值筛选、过滤所述命名实体中的噪音实体。进一步,所述步骤S2进一步包括:S21,将所述命名实体拆分为语义元素;S22,获取一主题数量n并将经所述步骤S21得到的命名实体输入到所述相似语义元素模型中,计算得到n个主题;S23,根据所述步骤S22得到的主题获取多个所述领域相关主题并设置每一所述领域相关主题的权重,具体的,所述领域相关主题根据所述主题应用领域进行筛选。进一步,所述步骤S4进一步包括:S41,设定所述噪音阈值;S42,根据所述评分对所述命名实体进行排序并筛选、过滤所述噪音实体,所述噪音实体为所述评分低于所述噪音阈值的命名实体。进一步,所述步骤S22进一步包括:S221,获取所述主题数量n,并根据所述主题数量n在所述语义元素中选取n个代表元素;S222,计算每一主题中每一语义元素与所述代表元素的距离;S223,通过组合所述语义元素及与所述语义元素距离最小的代表元素,得到n个主题;S224,确定主题中的中心元素,所述中心元素为与主题中其他元素的距离之和最小的元素。S225,重复步骤S221~S224直至每个主题内的中心元素不再变化,此过程为确定中心元素收敛的过程。进一步,所述距离为所述语义元素出现在同一实体内次数的倒数。进一步,所述步骤S23中的权重为领域相关实体数/总实体数,所述领域相关实体数为领域内实体数,所述总实体数为所述实体列表中的实体数。进一步,所述步骤S3中,所述实体的评分为每一实体中所述领域相关主题的权重的平均分,步骤S3中不限于采用平均分计算评分,也可以采用最大值、最小值、调和平均值,可根据应用场景选择最优评分计算方法。进一步,所述步骤S41中,所述噪音阈值=avg-3×σ;其中,所述avg为所述实体列表中实体的平均评分;σ为所述实体列表中实体评分的标准差。进一步,所述步骤S22通过一BTM主题模型实现。另一方面,本专利技术公开了一种基于实体话题关联度的领域命名实体去噪系统,包括:命名实体识别模块,获取待识别语料并通过一命名实体识别模型进行实体识别,得到实体列表;命名实体特点学习模块,用于将所述实体列表中的每一命名实体拆分为语义元素并通过一相似语义元素模型经学习、筛选得到多个领域相关主题及其权重;命名实体噪音评分模块,根据所述命名实体特点学习模块得到的每一所述领域相关主题及主题的权重计算得到所述命名实体的评分;命名实体过滤模块,用于设定一噪音阈值并根据噪音阈值筛选、过滤所述命名实体中的噪音实体。与现有技术相比,本专利技术的优点和积极效果在于:本专利技术的技术方案利用所述距离、权重、评分等参数作为参考评价所述实体之间的关联度,通过学习正确命名实体之间的关系,计算实体是否是噪音的评分,以去除领域内识别错误的命名实体,优化图谱构建,实现了提高实体识别准确率,提升用户体验度的技术效果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例基于实体话题关联度的领域命名实体去噪方法的优选流程示意图;图2为本专利技术实施例基于实体话题关联度的领域命名实体去噪方法的另一优选流程示意图;图3为本专利技术实施例基于实体话题关联度的领域命名实体去噪系统的系统框图。其中:0、领域命名实体去噪系统;1、命名实体识别模块;2、命名实体特点学习模块;3、命名实体噪音评分模块;4、命名实体过滤模块。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。需要说明,本专利技术实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。另外,在本专利技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。图1-2为本专利技术实施例的领域命名实体去噪方法的优选流程示意图,参考图1-2所示,本专利技术实施例公开了一种基于实体话题关联度的领域命名实体去噪方法,包括:S1,获取待识别语料并通过一命名实体识别模型进行实体识别,得到实体列表,本实施例的实体识别采用CRF模型进行实体识别;S2,将实体列表中的每一命名实体拆分为语义元素并通过一相似语义元素模型经学习、筛选得到多个领域相关主题及其权重;S3,基于S2得到的每一领域相关主题及主题的权重计算得到命名实体的评分,实体的评分为每一实体中领域相关主题的权重的平均分,值得注意的是,步骤S3中不限于采用平均分计算评分,也可以采用最大值、最小值、调和平均值,可根据应用场景选择最优评分计算方法;S4,本文档来自技高网...

【技术保护点】
1.一种基于实体话题关联度的领域命名实体去噪方法,其特征在于,包括:/nS1,获取待识别语料并通过一命名实体识别模型进行实体识别,得到实体列表;/nS2,将所述实体列表中的每一命名实体拆分为语义元素并通过一相似语义元素模型经学习、筛选得到多个领域相关主题及其权重;/nS3,基于所述步骤S2得到的每一所述领域相关主题及主题的权重计算得到所述命名实体的评分;/nS4,设定一噪音阈值并根据噪音阈值筛选、过滤所述命名实体中的噪音实体。/n

【技术特征摘要】
1.一种基于实体话题关联度的领域命名实体去噪方法,其特征在于,包括:
S1,获取待识别语料并通过一命名实体识别模型进行实体识别,得到实体列表;
S2,将所述实体列表中的每一命名实体拆分为语义元素并通过一相似语义元素模型经学习、筛选得到多个领域相关主题及其权重;
S3,基于所述步骤S2得到的每一所述领域相关主题及主题的权重计算得到所述命名实体的评分;
S4,设定一噪音阈值并根据噪音阈值筛选、过滤所述命名实体中的噪音实体。


2.如权利要求1所述的基于实体话题关联度的领域命名实体去噪方法,其特征在于,所述步骤S2进一步包括:
S21,将所述命名实体拆分为语义元素;
S22,获取一主题数量n并将经所述步骤S21得到的命名实体输入到所述相似语义元素模型中,计算得到n个主题;
S23,根据所述步骤S22得到的主题获取多个所述领域相关主题并设置每一所述领域相关主题的权重。


3.如权利要求1或2所述的基于实体话题关联度的领域命名实体去噪方法,其特征在于,所述步骤S4进一步包括:
S41,设定所述噪音阈值;
S42,根据所述评分对所述命名实体进行排序并筛选、过滤所述噪音实体,所述噪音实体为所述评分低于所述噪音阈值的命名实体。


4.如权利要求3所述的基于实体话题关联度的领域命名实体去噪方法,其特征在于,所述步骤S22进一步包括:
S221,获取所述主题数量n,并根据所述主题数量n在所述语义元素中选取n个代表元素;
S222,计算每一主题中每一语义元素与所述代表元素的距离;
S223,通过组合所述语义元素及与所述语义元素距离最小的代表元素,得到n个主题;
S224,确定主题中的中心元素,所述中心元素为与主题中其他元素的距离之和...

【专利技术属性】
技术研发人员:闫峰卫海天丁若谷
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1