【技术实现步骤摘要】
本专利技术涉及概率RDF图查询的数据清理技术,尤其涉及一种起点确定的RDF有向无环图查询的数据清理方法。
技术介绍
数据清理主要用于概率数据库查询当中,用户在前端发出一个查询,根据这个查询,在一定的预算下,找出一些不确定的节点或边通过众包平台来得到确定的结果,以此来更新数据库,使得下一次该查询的确定性提高得最大。概率图查询一般用熵来衡量查询结果的不确定性,而数据清洗很少用在概率RDF图查询当中。RDF数据库是由<s,p,o>这样的多个三元组组成的数据库。可以把RDF数据库转化为一张图,参阅图1,其中一个<s,p,o>三元组相当于图中的一条边。RDF查询语句可以转化为查询图,如:select?x,?ywhere{Aa?x,?xb?y,?ycI
【技术保护点】
一种起点确定的RDF有向无环图查询的数据清理方法,其特征在于,包括以下步骤:步骤一:在概率RDF图中进行起点确定的RDF有向无环图查询获得与之匹配的同构图;步骤二:量化清洗一条边时所得的期望质量提升模型;步骤三:遍历同构图获得有效属性集,根据所述有效属性集访问所述概率RDF图来获得有效边集;步骤四:通过朴素算法、剪枝算法一、或剪枝算法二在所述有效边集中选出使得所述期望质量提升模型提升最大化的边。
【技术特征摘要】
1.一种起点确定的RDF有向无环图查询的数据清理方法,其特征在于,包括以下步骤:步骤一:在概率RDF图中进行起点确定的RDF有向无环图查询获得与之匹配的同构图;步骤二:量化清洗一条边时所得的期望质量提升模型;步骤三:遍历同构图获得有效属性集,根据所述有效属性集访问所述概率RDF图来获得有效边集;步骤四:通过朴素算法、剪枝算法一、或剪枝算法二在所述有效边集中选出使得所述期望质量提升模型提升最大化的边。2.如权利要求1所述的起点确定的RDF有向无环图查询的数据清理方法,其特征在于,所述期望质量提升以如下公式表示:EΔH=H(R)-p(eijk=1)H(R|eijk=1)-p(eijk=0)H(R|eijk=0)=H(eijk)-(H(R,eijk)-H(R))式中,H(·)表示熵,p(·)表示某一事件的概率,查询结果R表示与查询图匹配的同构图及其相应的概率,H(R|eijk=0)表示当众包边eijk时且返回为0时的查询结果R的熵,H(R|eijk=1)表示当众包边eijk时且返回为1时的查询结果R的熵,H(eijk)表示众包平台返回eijk的值的熵,H(R,eijk)表示查询结果R与eijk的返回值的联合熵。3.如权利要求1所述的起点确定的RDF有向无环图查询的数据清理方法,其特征在于,所述朴素算法包括以下步骤:步骤a1:遍历同构图链表获得有效属性集;步骤a2:根据有效属性集访问RDF数据图来获得有效边集;步骤a3:对于每条边遍历同构图链表,计算与其对应的集合一、集合二与集合三的概率,然后代入所述期望质量提升模型中求得其期望质量提升值;步骤a4:从所述有效边集中选取使所述模型质量提升值最大的那条边为所求边。4.如权利要求1所述的起点确定的RDF有向无环图查询的数据清理方法,其特征在于,所述剪枝算法一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。