一种数据关系补全的推荐方法及装置制造方法及图纸

技术编号:17363651 阅读:43 留言:0更新日期:2018-02-28 13:42
本发明专利技术实施例公开了数据关系的补全推荐方法及装置,应用于信息处理技术领域。在发明专利技术本实施例中,数据关系补全的推荐装置会根据多种数据关系补全方法分别对训练数据集进行某一形式关系补全的第一评估参数值,预测多种数据关系补全方法分别对待补全数据集进行补全的第二类评估参数值,然后将第二评估参数值的数学计算值作为对应数据关系补全方法针对某一形式关系的补全评估分值,最后根据补全评估值推荐多种数据关系补全方法中的至少一种数据关系补全方法。由于训练数据集是根据待补全数据集确定的,通过本实施例的方法就可以针对待补全数据集的数据特点,推荐一种较为合适的数据关系补全方法,以对待补全数据集进行某一形式关系的补全。

A recommended method and device data completion

The embodiment of the invention discloses a data complement recommendation method and device, applied to the technical field of information processing. In the present embodiment, according to a variety of data between completion methods respectively on the training data set to assess the relationship between a first form completion parameters recommended device data relationship completion, a variety of data complement method to predict the data sets are treated separately to complement the completion of the second kinds of evaluation parameters, and then the second evaluation parameters the calculated values as the corresponding data completion score evaluation method for a complete relationship relationship, according to the final completion of at least one data evaluation method to compute the recommend values of various data in the relationship between complement method. Because the training data set is determined according to the complete data set, through the method of this embodiment can complement the data set according to data characteristics, recommend an appropriate method to treat the data complete, complete data sets are a form of complementary relationship.

【技术实现步骤摘要】
一种数据关系补全的推荐方法及装置
本专利技术涉及信息处理
,特别涉及一种数据关系补全的推荐方法及装置。
技术介绍
资源描述框架(ResourceDescriptionFramework,RDF)是世界万维网组织(简称W3C)于1999年推出的用于描述万维网资源的标准语言,是一种主要的本体描述语言,它为互联网上的各种应用提供信息描述的规范。RDF主要以三元组形式即<主语,谓词,宾语>来描述网络资源,已成为本体描述的标准之一,被广泛应用于语义网和元数据的描述中。通常来说RDF知识库分为TBox和ABox两个部分,TBox部分表达了知识库中概念间的关系,而TBox中的is-a关系则是表达了概念间的上下位关系,即子类(subclass-of)关系,主要是为了形式化的表达核心概念之间的层次结构,例如:subclass-of(Writer,Person)表达的是“作者(Writer)”是“人(Person)”的子类。而ABox主要包含了实例间的关系,ABox中的is-a关系则表示实例属于某个概念,即实例类别(instance-of)关系,反映的是实例与类别的关系,是概念层和实例层联系的基础,例如Tom是Person的一个实例通常表达为instance-of(Tom,Person)。因此本体中is-a关系是一些关键技术的基础,如:推理、一致性检测等技术的基础。现有技术中有许多is-a关系的补全方法,且对相关的is-a关系的补全方法做了评估,这些评估方法主要集中在对本体调试系统和本体推理机的方向。而如果需要对一个待补全数据集进行is-a关系的补全,现在的做法是人工分析每个is-a关系的补全方法及给定的待补全数据集的特点,从而选择一个最适合的is-a关系的补全方法对待补全数据集进行补全算法,这种方法过程比较繁琐。
技术实现思路
本专利技术实施例提供一种数据关系补全的推荐方法及装置,实现了根据多种数据关系补全方法对训练数据集进行某一形式关系的补全的第一评估参数值推荐至少一种合适的数据关系补全方法。本专利技术实施例提供一种数据关系补全的推荐方法,包括:根据待补全数据集确定训练数据集;用多种数据关系补全方法对所述训练数据集进行某一形式关系的补全,所述某一形式关系为概念之间的子类关系,或是实例类别关系;根据所述多种数据关系补全方法分别对所述训练数据集进行所述补全的第一评估参数值,预测所述多种数据关系补全方法分别对所述待补全数据集进行所述补全的第二类评估参数值,将所述第二评估参数值的数学计算值作为对应数据关系补全方法针对所述某一形式关系的补全评估分值;根据所述补全评估分值推荐所述多种数据关系补全方法中的至少一种数据关系补全方法。本专利技术实施例还提供一种数据关系补全的推荐装置,包括:训练确定单元,用于根据待补全数据集确定训练数据集;补全单元,用于用多种数据关系补全方法对所述训练数据集进行某一形式关系的补全,所述某一形式关系为概念之间的子类关系,或是实例类别关系;参数预测单元,用于根据所述多种数据关系补全方法分别对所述训练数据集进行所述补全的第一评估参数值,预测所述多种数据关系补全方法分别对所述待补全数据集进行所述补全的第二评估参数值;分值确定单元,用于将所述第二评估参数值的数学计算值作为对应数据关系补全方法针对所述某一形式关系的补全评估分值;推荐单元,用于根据所述补全评估分值推荐所述多种数据关系补全方法中的至少一种数据关系补全方法。可见,在专利技术本实施例中,数据关系补全的推荐装置会根据多种数据关系补全方法分别对训练数据集进行某一形式关系补全的第一评估参数值,预测多种数据关系补全方法分别对待补全数据集进行补全的第二类评估参数值,然后将第二评估参数值的数学计算值作为对应数据关系补全方法针对某一形式关系的补全评估分值,最后根据补全评估值推荐多种数据关系补全方法中的至少一种数据关系补全方法。由于训练数据集是根据待补全数据集确定的,通过本实施例的方法就可以针对待补全数据集的数据特点,推荐一种较为合适的数据关系补全方法,以对待补全数据集进行某一形式关系的补全。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种数据关系补全的推荐方法的流程图;图2是本专利技术实施例提供的另一种数据关系补全的推荐方法的流程图;图3是本专利技术实施例提供的预测各种数据关系补全方法对待补全数据集进行补全的第二评估参数值的方法流程图;图4是本专利技术实施例提供的确定各种数据关系补全方法的补全评估分值的方法流程图;图5是本专利技术应用实施例提供的一种数据关系补全的推荐方法的流程图;图6是本专利技术应用实施例中预测各种数据关系补全方法对待补全数据集进行补全的准确率和召回率的示意图;图7是本专利技术应用实施例中计算加权准确率稀疏矩阵的缺失值的示意图;图8是本专利技术实施例提供的一种数据关系补全的推荐装置的结构示意图;图9是本专利技术实施例提供的另一种数据关系补全的推荐装置的结构示意图;图10是本专利技术实施例提供的一种终端设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例提供一种数据关系补全的推荐方法,主要是数据关系补全的推荐装置所执行的方法,流程图如图1所示,包括:步骤101,根据待补全数据集确定训练数据集。可以理解,如果需要对待补全数据集进行is-a关系的补全时,包括对概念之间的子类关系的补全和对实例类别关系的补全,可以先选择一个合适的数据关系补全方法分别对待补全数据集的概念之间的子类关系进行补全和对实例类别关系进行补全,则会先发起本实施例的流程,以通过数据关系补全的推荐装置推荐一种比较合适的数据关系补全方法。本实施例中,对待补全数据集的概念之间的子类关系进行补全的方法可以和对实例类别关系进行补全的方法不同,也可以相同。一般情况下,待补全数据集中所包括的数据量比较大,数据关系补全的推荐装置会先根据待补全数据集确定一个训练数据集,该训练数据集中的数据是待补全数据集中的一部分数据,数据量较小,方便进行步骤102到105的计算。步骤102,用多种数据关系补全方法对训练数据集进行某一形式本文档来自技高网
...
一种数据关系补全的推荐方法及装置

【技术保护点】
一种数据关系补全的推荐方法,其特征在于,包括:根据待补全数据集确定训练数据集;用多种数据关系补全方法对所述训练数据集进行某一形式关系的补全,所述某一形式关系为概念之间的子类关系,或是实例类别关系;根据所述多种数据关系补全方法分别对所述训练数据集进行所述补全的第一评估参数值,预测所述多种数据关系补全方法分别对所述待补全数据集进行所述补全的第二类评估参数值,将所述第二评估参数值的数学计算值作为对应数据关系补全方法针对所述某一形式关系的补全评估分值;根据所述补全评估分值推荐所述多种数据关系补全方法中的至少一种数据关系补全方法。

【技术特征摘要】
1.一种数据关系补全的推荐方法,其特征在于,包括:根据待补全数据集确定训练数据集;用多种数据关系补全方法对所述训练数据集进行某一形式关系的补全,所述某一形式关系为概念之间的子类关系,或是实例类别关系;根据所述多种数据关系补全方法分别对所述训练数据集进行所述补全的第一评估参数值,预测所述多种数据关系补全方法分别对所述待补全数据集进行所述补全的第二类评估参数值,将所述第二评估参数值的数学计算值作为对应数据关系补全方法针对所述某一形式关系的补全评估分值;根据所述补全评估分值推荐所述多种数据关系补全方法中的至少一种数据关系补全方法。2.如权利要求1所述的方法,其特征在于,所述根据待补全数据集确定训练数据集具体包括:选取所述待补全数据集与预置的标准数据集中相同的,且在所述待补全数据集和标准数据集中都具有实例类别关系的共同实例,所述待补全数据集中所述共同实例的描述信息,及所述待补全数据集中的概念之间的子类关系数据组成第一初始训练数据集;选取所述第一初始训练数据集中的部分数据作为第一训练数据集;则所述用多种数据关系补全方法对所述训练数据集进行某一形式关系的补全,具体包括:用多种数据关系补全方法对所述第一训练数据集进行实例类别关系的补全。3.如权利要求1所述的方法,其特征在于,所述根据待补全数据集确定训练数据集具体包括:选取所述待补全数据集与预置的标准数据集中相同的,且在所述待补全数据集和标准数据集中都具有概念之间的子类关系的共同概念,所述待补全数据集中所述共同概念的描述信息,及所述待补全数据集中的实例类别关系数据组成第二初始训练数据集;选取所述第二初始训练数据集中的部分数据作为所述第二训练数据集;则所述用多种数据关系补全方法对所述训练数据集进行某一形式的关系补全,具体包括:用多种数据关系补全方法对所述第二训练数据集进行概念之间的子类关系的补全。4.如权利要求1至3任一项所述的方法,其特征在于,所述待补全数据集有t个类别,所述t为大于1的自然数,则根据所述多种数据关系补全方法分别对所述训练数据集进行所述补全的第一评估参数值,预测所述多种数据关系补全方法分别对所述待补全数据集进行所述补全的第二评估参数值,具体包括:确定每一种数据关系补全方法分别对所述训练数据集中各个类别进行补全的准确率和召回率,所述第一评估参数值包括所述训练数据集中各个类别的准确率和召回率;根据所述每一种数据关系补全方法针对训练数据集中各个类别的准确率和召回率,预测每一种数据关系补全方法分别针对所述待补全数据集中t个类别的准确率和召回率。5.如权利要求4所述的方法,其特征在于,用某一种数据关系补全方法对所述训练数据集进行某一形式关系的补全,具体包括:将所述训练数据集划分为互不相交且等大的多个数据子集;针对某一数据子集,将所述多个数据子集中除所述某一数据子集之外的其余数据子集作为训练集,训练所述其余数据子集中所述某一形式关系的特征信息;将所述某一数据子集作为测试集,根据所述特征信息确定所述测试集中的所述某一形式关系;则确定所述某一种数据关系补全方法对所述训练数据集中某一类别进行补全的准确率和召回率,具体包括:分别计算针对所述多个数据子集中每一数据子集确定所述测试集中某一形式关系的各个类别的准确率和召回率;将所述某一形式关系中某一类别的准确率的均值和召回率的均值分别作为所述某一种数据关系补全方法对所述训练数据集中某一类别进行补全的准确率和召回率。6.如权利要求4所述的方法,其特征在于,所述根据所述每一种数据关系补全方法针对训练数据集中各个类别的准确率和召回率,预测每一种数据关系补全方法分别针对所述待补全数据集中t个类别的准确率和召回率,具体包括:根据每一种数据关系补全方法针对训练数据集中各个类别的准确率和召回率分别构建准确率稀疏矩阵和召回率稀疏矩阵,其中,所述准确率稀疏矩阵中某一行的值分别表示某一种数据关系补全方法分别对所述t个类别进行补全的准确率,所述召回率稀疏矩阵中某一行的值分别表示某一种数据关系补全方法分别对所述t个类别进行补全的召回率;利用矩阵分解预测法分别计算所述准确率稀疏矩阵和召回率稀疏矩阵中的缺失值。7.如权利要求1至3任一项所述的方法,其特征在于,每一种数据关系补全方法对所述待补全数据集进行所述补全的第二评估参数值包括:分别对待补全数据集中t个类别进行所述补全的准确率和召回率;所述将所述第二评估参数值的数学计算值作为对应数据关系补全方法针对所述某一形式关系的补全评估分值,具体包括:计算加权准确率,所述加权准确率为某一数据关系补全方法分别对所述t个类别中每一个类别进行所述补全的准确率加权后的相加值;计算加权召回率,所述加权召回率为所述某一数据关系补全方法分别对所述t个类别中每一类别进行所述补全的召回率加权后的相加值;将所述加权准确率和加权召回率的数学关系计算值作为所述某一数据关系补全方法针对所述某一形式关系的补全评估分值。8.如权利要求7所述的方法,其特征在于,所述某一数据关系补全方法分别对t个类别中每一个类别进行所述补全的准确率的加权值分别为对应类别的关系个数与所述待补全数据集的所有关系个数的比值;所述某一数据关系补全方法分别对t个类别中每一个类别进行所述补全的召回率的加权值分别为对应类别的关系个数与所述待补全数据集的所有关系个数的比值。9.如权利要求7所述的方法,其特征在于,所述将所述加权准确率和加权召回率的数学关系计算值作为对应数据关系补全方法针对所述某一形式关系的补全评估分值,具体包括:将所述加权准确率与加权召回率的2倍相乘值,与所述加权准确率与加权...

【专利技术属性】
技术研发人员:何彬彬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1