【技术实现步骤摘要】
知识图谱中三元组数据标注方法和装置
本申请涉及计算机
,具体涉及人工智能领域,尤其涉及一种知识图谱中三元组数据标注方法和装置。
技术介绍
知识图谱中的三元组(包括主体、客体、主体与客体之间的关系)在实体问答、实体推荐等各应用场景中有着重要的作用。三元组的准确性直接影响各应用的准确性。目前,为了提高三元组的准确性,通常由人工对全量的三元组数据直接进行标注。但是,通过人工对全量的三元组数据直接标注的方式,标注成本高。
技术实现思路
本申请提出一种知识图谱中三元组数据标注方法和装置,用于解决相关技术中,由人工对全量的三元组数据直接标注来提高三元组的准确性的方法,存在标注成本高的问题。本申请一方面实施例提出了一种知识图谱中三元组数据标注方法,包括:按照预设的规则计算知识图谱中目标三元组数据的置信度,其中,目标三元组数据中包括:目标主体、目标客体及目标关系;若目标三元组数据的置信度大于阈值,则根据所述目标三元组数据的热度,确定所述目标三元组数据的调度优先级;根据所述目标关系的时效性及所述目标主体的歧义性,确定所述目标三元组数据的标注模式;根据所述目标三元组数据的调度优先级及标注模式,对所述目标三元组数据进行标注。本申请实施例的知识图谱中三元组数据标注方法,通过首先按照预设的规则计算知识图谱中目标三元组数据的置信度,其中,目标三元组数据中包括:目标主体、目标客体及目标关系,若目标三元组数据的置信度大于阈值,则根据目标三元组数据的热度,确定目标三元组 ...
【技术保护点】
1.一种知识图谱中三元组数据标注方法,其特征在于,包括:/n按照预设的规则计算知识图谱中目标三元组数据的置信度,其中,目标三元组数据中包括:目标主体、目标客体及目标关系;/n若目标三元组数据的置信度大于阈值,则根据所述目标三元组数据的热度,确定所述目标三元组数据的调度优先级;/n根据所述目标关系的时效性及所述目标主体的歧义性,确定所述目标三元组数据的标注模式;/n根据所述目标三元组数据的调度优先级及标注模式,对所述目标三元组数据进行标注。/n
【技术特征摘要】
1.一种知识图谱中三元组数据标注方法,其特征在于,包括:
按照预设的规则计算知识图谱中目标三元组数据的置信度,其中,目标三元组数据中包括:目标主体、目标客体及目标关系;
若目标三元组数据的置信度大于阈值,则根据所述目标三元组数据的热度,确定所述目标三元组数据的调度优先级;
根据所述目标关系的时效性及所述目标主体的歧义性,确定所述目标三元组数据的标注模式;
根据所述目标三元组数据的调度优先级及标注模式,对所述目标三元组数据进行标注。
2.如权利要求1所述的方法,其特征在于,所述按照预设的规则计算知识图谱中目标三元组数据的置信度,包括:
根据所述目标三元组数据与预设的本体约束的匹配度,确定目标三元组数据的置信度;
或者,
根据所述目标三元组数据与预设知识图谱中的各参考三元组数据的一致性,确定目标三元组数据的置信度。
3.如权利要求1所述的方法,其特征在于,所述按照预设的规则计算知识图谱中目标三元组数据的置信度,包括:
将所述目标主体、目标客体及目标关系进行拼接,生成查询语句;
获取所述查询语句对应的多个网络搜索结果;
根据所述目标主体、目标客体及目标关系在每个网络搜索结果中的共现频次、和/或共现距离,确定所述目标三元组数据的置信度。
4.如权利要求1所述的方法,其特征在于,所述根据所述目标三元组数据的热度,确定所述目标三元组数据的调度优先级之前,还包括:
将所述目标主体、目标客体及目标关系进行拼接,生成查询语句;
获取所述查询语句对应的多个网络搜索结果;
根据所述多个网络搜索结果中目标主体出现的网页数量,确定所述目标主体的热度;
根据所述目标关系在每个网络搜索结果中权重值,确定所述目标关系的热度;
根据所述目标主体的热度、目标关系的热度及预设的权重值,确定所述目标三元组数据的热度。
5.如权利要求1所述的方法,其特征在于,所述确定所述目标三元组数据的标注模式之前,还包括:
对包含所述目标主体的字符串进行主体识别,确定所述字符串中包含的实体数量;
若所述字符串中包含的实体数量大于或等于阈值,则确定所述目标三元组数据为专员标注数据。
6.如权利要求5所述的方法,其特征在于,所述确定所述字符串中包含的实体数量之后,还包括:
若所述字符串中包含N个热度不同的实体,则确定所述目标三元组数据为专员标注数据,其中,N为大于1、且小于所述阈值的整数。
7.如权利要求5所述的方法,其特征在于,所述确定所述字符串中包含的实体数量之后,还包括:
若所述字符串中包含的实体数量小于或等于N,则确定所述目标三元组数据为众包标注数据;
或者,若所述字符串中包含N个热度相同的实体,则确定所述目标三元组数据为众包标注数据;
其中,N为大于1、且小于所述阈值的整数。
8.一种知识图谱中三元组数据标注装置,其特征在于,包括:
计算模块,用于按照预设的规则计算知识图谱中目标三元组数据的置信度,其中,目标三元组数据中包括:目标主体、目标客体及目标关系;
第一确定模块,用于当目标...
【专利技术属性】
技术研发人员:李舰,李双婕,史亚冰,蒋烨,张扬,朱勇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。