一种基于实体属性的真值发现方法技术

技术编号:13620991 阅读:32 留言:0更新日期:2016-08-31 13:58
本发明专利技术涉及一种基于实体属性的真值发现方法,集中考虑算法的主要影响因素,提出全新设计思想的真值发现模型,在现有数据源可靠性与事实准确性迭代计算机制的基础上,考虑同一实体属性事实相互支持度和数据源之间的依赖关系两个因素,简化真值发现算法,提高真值发现的准确性;而且提出了单向文本相似度与事实冲突程度相结合的方法来计算事实相互支持度,对实体属性文本存在的简写、省写、漏写、多写和次序颠倒等复杂情况有更强的适应能力和准确性,能够进一步提高真值发现的准确性;不仅如此,还提出了数据源对称包含度来计算数据源之间的依赖程度,充分考虑了真值发现方法的主要影响因素,进一步提高真值发现的准确性。

【技术实现步骤摘要】

本专利技术涉及一种基于实体属性的真值发现方法,属于分布式计算和数据挖掘交叉

技术介绍
互联网的高速发展使得Web访问量迅速增加,互联网显然已经成为了一个巨型数据集,其数据量正在飞速地增长着,Web数据显然已经成为了人们获取信息的重要来源。互联网给人们生活和工作带来便利的同时,其提供的数据质量问题也日益突出,微博、论坛、博客、贴吧等网络媒介极大地降低了互联网用户发布与传播信息的门槛,再加上信息的时效性、传播性以及信息发布者的主观故意性和恶意导向性等因素,使得大量过时、虚假、片面、重复、错误等数据充斥着互联网,这些恶意数据从很大程度上干扰了用户对网络信息的访问,使用户得到错误的、多条相似的以及过时的信息等。为了确保数据的质量,为用户提供最为准确的数据值,众多学者对真值发现问题进行了深入的研究。针对真值发现问题,学者们通过考虑影响真值发现判断的各种因素进行了一系列相关研究。Yin等人提出了TruthFinder算法,利用类似Authority-Hub方法的迭代机制来联合推导数据源的可靠性和数据源所提供事实的准确性;Dong等人应用贝叶斯法则(Bayes Theorem)来推理数据源之间的依赖性;考明军等人基于投票思想提出的迭代投票算法(Iteration Vote,IVote)、信誉度投票迭代算法(Iteration-Reputation Vote,IRVote)和信誉度与复制投票迭代算法(Iteration-Reputation-Duplicattion Vote,IRDVote)。除此之外还有基于信息检索、Web链接分析和半监督学习(Semi-Supervised Learning,SSL)等方法来提高真值发现的准确性和计算效率的算法。真值发现问题,即给定一个数据源集合(例如不同的图书网站)以及各数据源针对某个实体属性(如一本书的作者信息)所给出的事实(即针对实体属性的描述)集合,现要从这些事实集合中发现真值(即正确的事实)。针对这一问题,最简单直观的解决方法是采用投票机制,各数据源分别对这一事实进行投票,根据得票数来判断各事实的准确性。但投票机制将各个数据源同等对待,没有考虑到数据源之间的差异,即数据源本身的可靠性不同,所以投票结果与现实相比往往存在着较大的差异。众多学者在投票算法基础上提出了很多更有效的改进算法,例如Yin提出了TruthFinder算法,它将信息检索技术Ink Analysis思想应用于真值发现中来计算数据源的可靠性,同时考虑数据源所提供的信息的准确性,将两者结合起来,利用迭代算法最终形成完整的真值发现算法。TruthFinder依据“不同数据源对同一实体属性提供的正确描述具有一致性而提供的错误描述形式不一”这一原则,因此一个数据源提供的正确描述越多,则其可靠性越大;反过来,当一个数据源可靠性越大,则其提供的描述的正确性就越高。当一个描述被多个可靠性较高的数据源提供时,它的正确性将会很高。TruthFinder对数据源可靠性的判断并不依赖于其提供描述的数量,而是取决于描述的准确性。更为重要的是,TruthFinder还考虑了不同描述之间的相互支持度对描述准确性判断的影响。然而TruthFinder对描述之间的相互支持度的计算仅仅采用基于编辑距离的字符串相似度代替,因此严重影响了算法的准确性,对复杂文本信息的真值发现准确性更是不理想。此外TruthFinder也没有考虑到数据源之间的复制关系对描述准确性的影响。考明军等人提出了迭代投票算法(Iteration Vote,IVote)以及改进的信誉度投票迭代算法(Iteration-Reputation Vote,IRVote)和信誉度与复制投票迭代算法(Iteration-Reputation-Duplicattion Vote,IRDVote)。IVote算法根据数据源本身可靠性和其提供的事实的准确性之间的关系,采用概率投票的方式进行迭代计算,选择投票结果最高的描述作为最终结果。IRVote在此基础之上进一步考虑数据源的权威性,即数据源的投票比重,数据源的权威性越重,其在投票过程中的权重越大。IRDVote在IRVote算法基础上加入了贝叶斯公式来充分考虑互联网中各数据源存在的相互传播和拷贝信息的情况。现有的真值发现方法大多将各种数据源同等对待,过多或片面地考虑方法的影响因素而导致其不够准确。在真值计算的时候,往往用基于编辑距离的字符串相似度来代替事实相互支持度,严重地影响了真值发现算法的准确性。
技术实现思路
本专利技术所要解决的技术问题是提供一种采用全新设计思想,解决现有真值发现算法复杂难懂、准确性不高问题,能够有效提高真值发现准确性的基于实体属性的真值发现方法。本专利技术为了解决上述技术问题采用以下技术方案:本专利技术设计了一种基于实体属性的真值发现方法,用于在各个数据源分别为各个实体属性提供事实的情况下,确定各个实体属性分别所对应的真值事实,包括如下步骤:步骤001.所有数据源构成全局数据源集合,随机初始化其可靠性t(sn),然后进入步骤002;其中,n={1、…、N本文档来自技高网
...

【技术保护点】
一种基于实体属性的真值发现方法,用于在各个数据源分别为各个实体属性提供事实的情况下,确定各个实体属性分别所对应的真值事实,其特征在于,包括如下步骤:步骤001.所有数据源构成全局数据源集合,分别针对全局数据源集合中的各个数据源,随机初始化其可靠性为t(sn),然后进入步骤002;其中,n={1、…、N},N为全局数据源集合中数据源的个数,sn表示全局数据源集合中的第n个数据源,t(sn)表示全局数据源集合中第n个数据源的可靠性,0<t(sn)<1;步骤002.分别针对各个实体属性,针对全局数据源集合中各个数据源为实体属性提供的各个事实,按相同事实进行划分,即将相同的事实划分为一类,构成该实体属性的各个事实种类;并针对全局数据源集合中的各个数据源,按其分别针对该实体属性所提供各个事实的划分进行相应划分,构成与该各个事实种类分别相对应的各个局部数据源集合;再获得该实体属性所对应事实种类的个数I,I≤N,即分别获得各个实体属性分别所对应的各个事实种类,以及与各个事实种类相对应的各个局部数据源集合,然后初始化迭代次数r=1,并进入步骤003;步骤003.分别针对各个实体属性,根据如下公式,获得实体属性所对应各个事实种类的准确性t(fi),t(fi)=1-Πk=1K(1-t(vk))]]>式中,i={1、…、I},fi表示该实体属性的第i个事实种类,t(fi)表示该实体属性的第i个事实种类的准确性,K表示该实体属性的第i个事实种类所对应局部数据源集合中的数据源的个数,K≤N,vk表示该实体属性的第i个事实种类所对应局部数据源集合中的第k个数据源,t(vk)表示该实体属性的第i个事实种类所对应局部数据源集合中第k个数据源的可靠性;进而获得各个实体属性分别所对应各个事实种类的准确性t(fi),然后进入步骤004;步骤004.针对各个实体属性分别所对应各个事实种类的准确性t(fi)进行对数放大处理,获得各个实体属性分别所对应各个事实种类的第一准确性tp(fi);同时针对全局数据源集合中各个数据源的可靠性t(sn)进行对数放大处理,更新为tg(sn),即更新全局数据源集合中各个数据源的可靠性为tg(sn),然后进入步骤005;步骤005.分别针对各个实体属性,根据如下公式,分别获得实体属性的各个事实种类的冲突程度conflict(fi),conflict(fi)=1-|fi|Σj=1I|fj|]]>式中,j={1、…、I},fj表示该实体属性的第j个事实种类,|fi|表示该实体属性的第i个事实种类中事实的数量,|fj|表示该实体属性的第j个事实种类中事实的数量;进而获得各个实体属性分别所对应各个事实种类的冲突程度conflict(fi),然后进入步骤006;步骤006.分别针对各个实体属性,根据如下公式,分别针对实体属性的各个事实种类fi,获得全局数据源集合中各个数据源为该实体属性所提供的各个事实f′z,分别针对fi的单向文本相似度sim(f′z,fi),sim(fz′,fi)=clen(fz′)*|fi|]]>式中,f′z表示全局数据源集合中各个数据源为该实体属性所提供各个事实中的第z个事实;c表示全局数据源集合中各个数据源为该实体属性所提供各个事实中、第z个事实所对应文本与该实体属性第i个事实种类fi所对应文本之间相同词元的个数;len(f′z)表示全局数据源集合中各个数据源为该实体属性所提供各个事实中、第z个事实所对应文本的词元的个数;进而分别获得全局数据源集合中各个数据源为各个实体属性分别所提供的各个事实f′z,分别针对对应实体属性各个事实种类fi的单向文本相似度sim(f′z,fi),然后进入步骤007;步骤007.针对全局数据源集合中的各个数据源,根据如下公式,获得全局数据源集合中两两数据源之间的对称包含度depend(sn,sn'),然后进入步骤008;depend(sn,sn′)=tp+q+tn≠n′0n=n′]]>式中,n'={1、…、N},depend=sn,sn')表示全局数据源集合中第n个数据源与第n'个数据源之间的对称包含度;p=b‑t,q=d‑t;b表示全局数据源集合中第n个数据源针对各个实体属性所提供事实的个数;d表示全局数据源集合中第n'个数据源针对各个实体属性所提供事实的个数;t表示全局数据源集合中第n个数据源针对各个实体属性所提供各个事实,与全局数据源集合中第n'个数据源针对各个实体属性所提供各个事实之间相同事实的个数;步骤008.根据如下公式,分别针对全局数据源集合中的各个数据源,针对数据源的可靠性为tg(sn)进行调整,更新为t'g(sn),即更新该数据源的可靠性为t'g(sn),tg′(sn)=t...

【技术特征摘要】
1.一种基于实体属性的真值发现方法,用于在各个数据源分别为各个实体属性提供事实的情况下,确定各个实体属性分别所对应的真值事实,其特征在于,包括如下步骤:...

【专利技术属性】
技术研发人员:徐小龙刘笑笑孙雁飞鲁蔚锋张登银卢亚楠王勇
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1