实体消歧方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:22565179 阅读:24 留言:0更新日期:2019-11-16 12:03
本申请涉及一种实体消歧方法、装置、计算机设备和存储介质。所述方法包括:获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;依据所述综合相似度,对所述待消歧的多个实体进行消歧。采用基于数据分析技术的本方法能够提高对包括非结构化数据的实体进行消歧的准确率。

Physical disambiguation method, device, computer equipment and storage medium

The present application relates to an entity disambiguation method, a device, a computer device and a storage medium. The method comprises: acquiring profile data corresponding to a plurality of entities to be disambiguated respectively; a plurality of said entities corresponding to the same entity name; inputting the profile data into a pre trained information extraction model, extracting key attribute information corresponding to a plurality of said entities respectively through the information extraction model; calculating a plurality of said entities respectively according to the key attribute information The similarity of two entities to be compared in multiple attribute dimensions; for each group of two entities to be compared, the similarity of two entities to be compared in each group in the multiple attribute dimensions is weighted and summed to get the comprehensive similarity between the two entities to be compared in each group; according to the comprehensive similarity, the multiple entities to be disambiguated are disambiguated. This method based on data analysis technology can improve the accuracy of Disambiguation for entities including unstructured data.

【技术实现步骤摘要】
实体消歧方法、装置、计算机设备和存储介质
本申请涉及数据处理
,特别是涉及一种实体消歧方法、装置、计算机设备和存储介质。
技术介绍
实体消歧也称语义消歧,专门用于解决同名实体产生歧义的问题。比如,对于两个实体名称均为“张三”的实体,是指向同一人物,还是不同人物,有待进行消歧处理。实体消歧在搜索系统、问答系统、和知识库等领域有着广泛的应用。网络资源中存在大量的重名现象,在分析理解文本的时候,进行实体消歧,以明确实体的正确指向具有非常大的现实意义。传统的实体消歧方式主要是针对结构化数据为主的实体,而对于数据质量差,或者是非结构化数据为主的实体,目前并没有很好的方案可以实现实体消歧。而对于很多从网络上爬取的数据而言,大多却是非结构化数据,如何正确分析这些数据,以明确实体的正确指向是亟待解决的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够准确地对包括非结构化数据的实体进行实体消歧,以明确实体的正确指向的实体消歧方法、装置、计算机设备和存储介质。一种实体消歧方法,所述方法包括:获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;依据所述综合相似度,对所述待消歧的多个实体进行消歧。一种实体消歧装置,所述装置包括:获取模块,用于获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;提取模块,用于将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;计算模块,用于根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;所述计算模块还用于对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;确定模块,用于依据所述综合相似度,对所述待消歧的多个实体进行消歧。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;依据所述综合相似度,对所述待消歧的多个实体进行消歧。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;依据所述综合相似度,对所述待消歧的多个实体进行消歧。上述实体消歧方法、装置、计算机设备和存储介质,将与对应相同实体名称的多个实体对应的简介数据,输入至信息提取模型中,可以快速准确地从简介数据中提取各个实体对应的关键属性信息。从而在进行相似度计算时,可过滤掉大量的无效数据,仅需根据有效的关键属性信息来计算待比较的两个实体在多个属性维度上的相似度。对于每组待比较的两个实体,将各组待比较的两个实体在多个属性维度上的相似度进行加权求和,可以得到能更全面反映相似度情况的综合相似度。这样,根据综合相似度,就可准确地确定待消歧的实体是否指向同一实体,可以很好地利用非结构化数据来明确实体的正确指向,大大提高了对包括非结构化数据的实体进行消歧的准确率。附图说明图1为一个实施例中实体消歧方法的应用场景图;图2为一个实施例中实体消歧方法的流程示意图;图3为一个实施例中对实体在多个属性维度上的相似度进行加权求和,得到待消歧的多个实体间的综合相似度的步骤的流程示意图;图4为一个实施例中实体消歧装置的结构框图;图5为另一个实施例中实体消歧装置的结构框图;图6为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的实体消歧方法,可以应用于如图1所示的应用环境中。其中,终端110与服务器120通过网络进行通信。终端110可从网络资源中获取简介数据,并将简介数据发送至服务器120,服务器120执行该实体消歧方法,确定与待消歧的多个实体相对应的消歧类别,以明确各实体的正确指向。或者,终端110可直接执行该实体消歧方法,确定与待消歧的多个实体相对应的消歧类别,以明确各实体的正确指向。其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种实体消歧方法,以该方法应用于图1中的终端110或服务器120(终端和服务器均可称作计算机设备)为例进行说明,包括以下步骤:S202,获取与待消歧的多个实体分别对应的简介数据;多个实体对应相同的实体名称。其中,实体(Entity)是指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念或联系。实体消歧也称语义消歧,是辨别对应相同实体名称的实体是否指向同一实体、或从多个对应相同实体名称的实体中确定目标实体的过程。待消歧的多个实体是指对应相同的实体名称的多个实体,可以是两个实体或两个以上的实体。通过执行该实体消歧方法,可识别待消歧的实体是否指向同一实体。简介数据是对实体进行解释的数据,包括简介文本、简介视频、简介图像、简介音频等数据,是一种非结构化的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。当实体为人物实体时,对应的简介数据可以是简历数据;当实体为企业实体时,对应的简介数据可以是企业介绍;当实体为物品实体时,对应的简介数据可是本文档来自技高网...

【技术保护点】
1.一种实体消歧方法,所述方法包括:/n获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;/n将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;/n根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;/n对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;/n依据所述综合相似度,对所述待消歧的多个实体进行消歧。/n

【技术特征摘要】
1.一种实体消歧方法,所述方法包括:
获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;
将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;
根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;
对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;
依据所述综合相似度,对所述待消歧的多个实体进行消歧。


2.根据权利要求1所述的方法,其特征在于,所述获取与待消歧的多个实体分别对应的简介数据,包括:
获取待处理的多源数据;
确定所述多源数据所对应实体的实体名称;
将对应于相同实体名称的所述多源数据划分为同组多源数据;
分别提取各组多源数据中的简介数据,并将提取的所述简介数据作为与待消歧的多个实体分别对应的简介数据。


3.根据权利要求1所述的方法,其特征在于,所述根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度,包括:
对于多个所述实体中待比较的两个实体,在各属性维度上,分别将所述待比较的两个实体对应的关键属性信息拆分成多个字符,组成与所述待比较的两个实体分别对应、且与各属性维度分别对应的字符集合;
从所述字符集合中,挑选出与所述待比较的两个实体均对应的字符,组成字符交集集合;
根据所述字符集合,确定与各属性维度分别对应的字符总集合;
在各属性维度上,分别计算所述字符交集集合与所述字符总集合的字符重合度;
将各属性维度所对应的字符重合度作为待比较的两个在各属性维度上所对应的相似度。


4.根据权利要求1所述的方法,其特征在于,所述对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度,包括:
对于每组待比较的两个实体,确定所述待比较的两个实体在预设属性维度上所对应的预设属性相似度;
确定与所述预设属性相似度对应配置的加权系数;
根据...

【专利技术属性】
技术研发人员:孙佳兴戴飞翔叶曙峰黄鸿顺
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1