知识图谱中三元组数据标注方法和装置制造方法及图纸

技术编号:24457711 阅读:123 留言:0更新日期:2020-06-10 16:03
本申请公开了知识图谱中三元组数据标注方法和装置,涉及人工智能领域,其中,方法包括:按照预设的规则计算目标三元组数据的置信度;若目标三元组数据的置信度大于阈值,则根据目标三元组数据的热度,确定目标三元组数据的调度优先级;根据目标关系的时效性及目标主体的歧义性,确定目标三元组数据的标注模式;根据目标三元组数据的调度优先级及标注模式,对目标三元组数据进行标注。该方法在对知识图谱中三元组数据标注前,先通过置信度将准确率低的三元组数据过滤掉,对于置信度高的三元组数据,根据调度优先级和标注模式进行标注,从而将三元组数据的标注分为多层,通过分层完成数据的标注处理,提升了标注准确率和效率,降低了人工成本。

The method and device of three tuple data annotation in knowledge atlas

【技术实现步骤摘要】
知识图谱中三元组数据标注方法和装置
本申请涉及计算机
,具体涉及人工智能领域,尤其涉及一种知识图谱中三元组数据标注方法和装置。
技术介绍
知识图谱中的三元组(包括主体、客体、主体与客体之间的关系)在实体问答、实体推荐等各应用场景中有着重要的作用。三元组的准确性直接影响各应用的准确性。目前,为了提高三元组的准确性,通常由人工对全量的三元组数据直接进行标注。但是,通过人工对全量的三元组数据直接标注的方式,标注成本高。
技术实现思路
本申请提出一种知识图谱中三元组数据标注方法和装置,用于解决相关技术中,由人工对全量的三元组数据直接标注来提高三元组的准确性的方法,存在标注成本高的问题。本申请一方面实施例提出了一种知识图谱中三元组数据标注方法,包括:按照预设的规则计算知识图谱中目标三元组数据的置信度,其中,目标三元组数据中包括:目标主体、目标客体及目标关系;若目标三元组数据的置信度大于阈值,则根据所述目标三元组数据的热度,确定所述目标三元组数据的调度优先级;根据所述目标关系的时效性及所述目标主体的歧义性,确定所述目标三元组数据的标注模式;根据所述目标三元组数据的调度优先级及标注模式,对所述目标三元组数据进行标注。本申请实施例的知识图谱中三元组数据标注方法,通过首先按照预设的规则计算知识图谱中目标三元组数据的置信度,其中,目标三元组数据中包括:目标主体、目标客体及目标关系,若目标三元组数据的置信度大于阈值,则根据目标三元组数据的热度,确定目标三元组数据的调度优先级,根据目标关系的时效性及目标主体的歧义性,确定目标三元组数据的标注模式,之后根据目标三元组数据的调度优先级及标注模式,对目标三元组数据进行标注。由此,在对知识图谱中三元组数据标注前,先通过置信度将准确率低的三元组数据过滤掉,对于筛选出的置信度高的三元组数据,确定其调度优先级和标注模式,根据调度优先级和标注模式,对三元组数据进行标注,从而将三元组数据的标注分为多层,通过分层完成数据的标注处理,提升了标注准确率和效率,降低了人工成本。本申请另一方面实施例提出了一种知识图谱中三元组数据标注装置,包括:计算模块,用于按照预设的规则计算知识图谱中目标三元组数据的置信度,其中,目标三元组数据中包括:目标主体、目标客体及目标关系;第一确定模块,用于当目标三元组数据的置信度大于阈值时,根据所述目标三元组数据的热度,确定所述目标三元组数据的调度优先级;第二确定模块,用于根据所述目标关系的时效性及所述目标主体的歧义性,确定所述目标三元组数据的标注模式;标注模块,用于根据所述目标三元组数据的调度优先级及标注模式,对所述目标三元组数据进行标注。本申请实施例的知识图谱中三元组数据标注装置,通过首先按照预设的规则计算知识图谱中目标三元组数据的置信度,其中,目标三元组数据中包括:目标主体、目标客体及目标关系,若目标三元组数据的置信度大于阈值,则根据目标三元组数据的热度,确定目标三元组数据的调度优先级,根据目标关系的时效性及目标主体的歧义性,确定目标三元组数据的标注模式,之后根据目标三元组数据的调度优先级及标注模式,对目标三元组数据进行标注。由此,在对知识图谱中三元组数据标注前,先通过置信度将准确率低的三元组数据过滤掉,对于筛选出的置信度高的三元组数据,确定其调度优先级和标注模式,根据调度优先级和标注模式,对三元组数据进行标注,从而将三元组数据的标注分为多层,通过分层完成数据的标注处理,相比人工对全量数据标注,提升了标注准确率和效率,降低了人工成本。本申请另一方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的知识图谱中三元组数据标注方法。本申请另一方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的知识图谱中三元组数据标注方法。上述申请中的实施例具有如下有益效果:上述通过在对知识图谱中三元组数据标注前,先通过置信度将准确率低的三元组数据过滤掉,对于筛选出的置信度高的三元组数据,确定其调度优先级和标注模式,根据调度优先级和标注模式,对三元组数据进行标注。因为采用将三元组数据的标注分为多层,通过分层完成数据的标注处理的技术手段,所以克服了人工对全量三元组数据直接标注的方法,标注成本高的技术问题,进而达到提升标注准确率和效率,降低人工成本的技术效果。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1为本申请实施例提供的一种知识图谱中三元组数据标注方法的流程示意图;图2为本申请实施例提供的另一种知识图谱中三元组数据标注方法的流程示意图;图3为本申请实施例提供的另一种知识图谱中三元组数据标注方法的流程示意图;图4为本申请实施例提供的另一种知识图谱中三元组数据标注方法的流程示意图图5为本申请实施例提供的一种知识图谱中三元组数据标注装置的结构示意图;图6为根据本申请实施例的知识图谱中三元组数据标注方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。下面参考附图描述本申请实施例的知识图谱中三元组数据标注方法和装置。本申请实施例,针对人工对全量的三元组数据直接标注方法,存在标注成本高的问题,提出一种知识图谱中三元组数据标注方法。本申请实施例的知识图谱中三元组数据标注方法,在对知识图谱中三元组数据标注前,先通过置信度将准确率低的三元组数据过滤掉,对于筛选出的置信度高的三元组数据,确定其调度优先级和标注模式,根据调度优先级和标注模式,对三元组数据进行标注,从而将三元组数据的标注分为多层,通过分层完成数据的标注处理,相比人工对全量数据直接标注,提升了标注准确率和效率,降低了人工成本。图1为本申请实施例提供的一种知识图谱中三元组数据标注方法的流程示意图。在应用场景中,直接抽取得到三元组数据由于算法准确率以及数据源的可信度问题,可能不能直接满足应用需求,因此需要进行标注。本申请实施例的知识图谱中三元组数据标注方法,可由本申请提供的知识图谱中三元组数据标注装置执行,该装置可配置于电子设备中,以实现将三元组数据的标注分为多层,通过分层完成数据的标注处理。如图1所示,该知识图谱中三元组数据标注方法包括:步骤101,本文档来自技高网...

【技术保护点】
1.一种知识图谱中三元组数据标注方法,其特征在于,包括:/n按照预设的规则计算知识图谱中目标三元组数据的置信度,其中,目标三元组数据中包括:目标主体、目标客体及目标关系;/n若目标三元组数据的置信度大于阈值,则根据所述目标三元组数据的热度,确定所述目标三元组数据的调度优先级;/n根据所述目标关系的时效性及所述目标主体的歧义性,确定所述目标三元组数据的标注模式;/n根据所述目标三元组数据的调度优先级及标注模式,对所述目标三元组数据进行标注。/n

【技术特征摘要】
1.一种知识图谱中三元组数据标注方法,其特征在于,包括:
按照预设的规则计算知识图谱中目标三元组数据的置信度,其中,目标三元组数据中包括:目标主体、目标客体及目标关系;
若目标三元组数据的置信度大于阈值,则根据所述目标三元组数据的热度,确定所述目标三元组数据的调度优先级;
根据所述目标关系的时效性及所述目标主体的歧义性,确定所述目标三元组数据的标注模式;
根据所述目标三元组数据的调度优先级及标注模式,对所述目标三元组数据进行标注。


2.如权利要求1所述的方法,其特征在于,所述按照预设的规则计算知识图谱中目标三元组数据的置信度,包括:
根据所述目标三元组数据与预设的本体约束的匹配度,确定目标三元组数据的置信度;
或者,
根据所述目标三元组数据与预设知识图谱中的各参考三元组数据的一致性,确定目标三元组数据的置信度。


3.如权利要求1所述的方法,其特征在于,所述按照预设的规则计算知识图谱中目标三元组数据的置信度,包括:
将所述目标主体、目标客体及目标关系进行拼接,生成查询语句;
获取所述查询语句对应的多个网络搜索结果;
根据所述目标主体、目标客体及目标关系在每个网络搜索结果中的共现频次、和/或共现距离,确定所述目标三元组数据的置信度。


4.如权利要求1所述的方法,其特征在于,所述根据所述目标三元组数据的热度,确定所述目标三元组数据的调度优先级之前,还包括:
将所述目标主体、目标客体及目标关系进行拼接,生成查询语句;
获取所述查询语句对应的多个网络搜索结果;
根据所述多个网络搜索结果中目标主体出现的网页数量,确定所述目标主体的热度;
根据所述目标关系在每个网络搜索结果中权重值,确定所述目标关系的热度;
根据所述目标主体的热度、目标关系的热度及预设的权重值,确定所述目标三元组数据的热度。


5.如权利要求1所述的方法,其特征在于,所述确定所述目标三元组数据的标注模式之前,还包括:
对包含所述目标主体的字符串进行主体识别,确定所述字符串中包含的实体数量;
若所述字符串中包含的实体数量大于或等于阈值,则确定所述目标三元组数据为专员标注数据。


6.如权利要求5所述的方法,其特征在于,所述确定所述字符串中包含的实体数量之后,还包括:
若所述字符串中包含N个热度不同的实体,则确定所述目标三元组数据为专员标注数据,其中,N为大于1、且小于所述阈值的整数。


7.如权利要求5所述的方法,其特征在于,所述确定所述字符串中包含的实体数量之后,还包括:
若所述字符串中包含的实体数量小于或等于N,则确定所述目标三元组数据为众包标注数据;
或者,若所述字符串中包含N个热度相同的实体,则确定所述目标三元组数据为众包标注数据;
其中,N为大于1、且小于所述阈值的整数。


8.一种知识图谱中三元组数据标注装置,其特征在于,包括:
计算模块,用于按照预设的规则计算知识图谱中目标三元组数据的置信度,其中,目标三元组数据中包括:目标主体、目标客体及目标关系;
第一确定模块,用于当目标...

【专利技术属性】
技术研发人员:李舰李双婕史亚冰蒋烨张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1