本发明专利技术提供了一种基于属性间依赖关系的网络表格的实体列的检测方法。针对一个网络表格,根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率,根据所述近似函数依赖概率获取候选函数依赖集;根据网络表格的特点,删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集;对近似函数依赖集进行3NF规范化,将3NF规范化后产生的主键集合作为网络表格的实体列。本发明专利技术提供的方法能更加准确地表达属性间内在的函数依赖关系;在计算近似函数依赖时基于一致性数据和不一致性数据对函数依赖的支持度,该算法具有明显的抗噪声能力,该方法不仅适用于单实体列的网络表格,还可用于多实体列的表格。
【技术实现步骤摘要】
基于属性间依赖关系的网络表格的实体列的检测方法
本专利技术涉及网络信息处理
,尤其涉及一种基于属性间依赖关系的网络表格的实体列的检测方法。
技术介绍
随着信息技术的发展,互联网上的资源越来越丰富,除了非结构化数据外,还有大量的网络表格存在,这些网络表格较文本而言,具有更好的结构化特性,因此受到人们的极大关注。如何让机器更好地理解网络表格的语义成为提高表格搜索覆盖率和准确率的重大挑战。实体列能够标识网络表格所描述的实体,其列标签描述了整张网络表格的主题,通过它可以确定网络表格的语义信息。如果准确地探测网络表格的实体列,就可以大大提升机器对网络表格语义的理解程度。现有技术中的一种实体列发现算法是由Wang等人提出的基于证据的实体列发现算法。该算法尝试将Probase作为知识库,依赖两个证据实现网络表格的实体列发现。他们依据的证据是:首先,实体列中的所有实体描述的是同一个概念;其次,实体列表达的概念与其他非实体列表达的概念之间存在概念属性关系。在基于证据的实体列发现算法中,对于一张网络表格的每一个候选模式s,当选择其中一列col为实体列时,其余列为该实体列的属性,计算所有候选实体列的评分,选择评分最高的候选实体列作为该网络表格的实体列。目标函数如下:其中,SCA是属性集合A的所有可能的概念属性关系集合,ci是属性集合Ai描述的概念,sai表示属性集合A是概念ci的属性的可信度;SCE是实体集合E的所有可能的概念实体关系集合,ci是实体集Ei所属的概念,sei表示实体集E属于概念ci的可信度;Acol表示候选模式s中,除了col列的所有属性集合;Ecol表示col列中除了表头的所有列值集合。上述现有技术中的实体列发现算法的缺点为:首先,该方法依赖于网络表格的表头和知识库,需要很大的计算开销。知识库确实涵盖了许多实体、属性、概念以及它们之间的关系,但是知识库很难覆盖网络上全部的实体、属性、概念以及它们之间的关系。同时,网络表格常常缺乏表头信息,仅靠知识库很难准确恢复其表头,特别是数字、日期等列的标签。因此,基于证据的实体列发现算法的召回率和准确率较低。其次,基于证据的实体列发现方法只能对单实体列的网络表格进行实体列发现,而忽略了多实体列网络表格的存在。网络上的许多表格不止一个实体列,该算法具有一定的局限性。
技术实现思路
本专利技术的实施例提供了一种基于属性间依赖关系的网络表格的实体列的检测方法,以实现有效地发现网络表格的实体列。为了实现上述目的,本专利技术采取了如下技术方案。一种基于属性间依赖关系的网络表格的实体列检测方法,进一步地,包括:针对一个网络表格,根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率,根据所述近似函数依赖概率获取候选函数依赖集;根据网络表格的特点,删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集;对近似函数依赖集进行3NF规范化,将3NF规范化后产生的主键集合作为网络表格的实体列。进一步地,所述的针对一个网络表格,根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率,根据所述近似函数依赖概率获取候选函数依赖集,包括:设X是网络表格T中的某个属性,A是T中不同于X的属性,当T中存在部分元组的(X,A)属性值对,使得X→A成立,则称X近似函数确定A或A近似函数依赖于X,记作表示X→A在T上成立的近似函数依赖概率,(X,A)属性值对中使得X→A成立的数据称为一致性数据,其余称为不一致性数据;在网络表格T中,对于X属性值为vx的元组,其A属性列中可能存在不同的值,假设该不同值的集合为VA。如果集合VA中个数最多的值唯一,则将该值作为一致性数据,如果个数最多的值不唯一,则将这些个数最多的值分别作为类中心,计算其他值和类中心值相似度的和,选择和最大时的类中心值va作为一致性数据。具体计算方法如公式(1)所示。对于任意类中心值vj。X中值为vx的所有元组,其中的一致性数据va对X→A成立的支持度Sc(X→A,VX,VA')由公式(2)计算;其中:VX={X.r|X.r=vx}VA'={A.r|X.r=vx&A.r=va}|VX,VA'|=|{<X.r,A.r>|X.r=vx&A.r=va}|VA'就是当X列取vx时,所对应A列中一致性数据的集合,X.r为X列r行单元格的值,A.r为A列r行单元格的值;不一致性数据对X→A成立的支持度Snc(X→A,VX,VA*)的计算公式由公式(3)计算;集合VX对X→A成立的支持度通过一致性数据和不一致性数据对X→A成立的支持度的加权平均和表示,由公式(5)计算:其中ω1+ω2=1;取X中所有不同元组的支持度,将它们的平均值作为网络表格T中X→A成立的概率,由公式(6)计算:其中|DX|表示X中有区别的VX的个数;表示网络表格T中的一种近似函数依赖成立的概率,候选函数依赖集中包含网络表格T中所有可能的近似函数依赖。进一步地,所述的根据网络表格的特点,删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集,包括:如果候选函数依赖集中的近似函数依赖关系满足以下3条规则中的任一条,则将从候选近似函数依赖集中删去:规则1:若X列的属性值的类型为日期类型、浮点类型或者布尔类型:规则2:若在网络表格T中存在属性列Y,使得成立;规则3:若在候选近似函数依赖集中,存在这样的属性列X和A,使得且进一步地,所述的对近似函数依赖集进行3NF规范化,将3NF规范化后产生的主键集合作为网络表格的实体列,包括:将近似函数依赖集中的近似函数依赖关系映射到关系矩阵FD[m][n]中,将决定属性间的近似函数依赖关系映射到关系矩阵KK[m][m]中,其中m是位于近似函数依赖蕴含左边的属性数目,即决定属性数,n为网络表格中所有属性列的数目:(1)FD[m][n]的元素产生如下:设α∈{决定属性集},β∈{所有列属性集}4)如果α=β,则FD[α][β]:=2;5)如果则FD[α][β]:=1;6)其他情况,则FD[α][β]:=0;(2)KK[m][m]的元素产生如下:设α,γ∈{决定属性集}3)如果α=γ或者则KK[α][γ]:=1;4)其他情况,则KK[α][γ]:=-1;定义在网络表格T中,如果则称Z对X近似传递函数依赖,记为其中Y为近似传递函数依赖的中介键;根据所述关系矩阵FD[m][n]、关系矩阵KK[m][m]确定近似函数依赖集闭包DC[m][n],根据所述近似函数依赖集闭包DC[m][n]确定只存在直接近似函数依赖中的决定属性和中介键,将所述只存在直接近似函数依赖中的决定属性和所述中介键作为网络表格的实体列输出。进一步地,所述的根据所述关系矩阵FD[m][n]、关系矩阵KK[m][m]确定近似函数依赖集闭包DC[m][n],包括:步骤1、将FD[m][n]中的元素复制到DC[m][n];i:=0;i表示KK[m][m]中第i个近似函数依赖;步骤2、i:=1;步骤3:判断是否在KK[m][m]中存在,且在DC[m][n]中存在,如果是,则DC[m][n]:=βi并且执行步骤4;否则,直接执行步骤4;步骤4:判断KK[m][m]中是否存在第i+1个近似函数依赖,如果存在,则执行步骤5;否则,直接执行步骤6;步骤5:i:=i+1,返回步骤3;步骤6:本文档来自技高网...

【技术保护点】
一种基于属性间依赖关系的网络表格的实体列检测方法,其特征在于,包括:针对一个网络表格,根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率,根据所述近似函数依赖概率获取候选函数依赖集;根据网络表格的特点,删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集;对近似函数依赖集进行3NF规范化,将3NF规范化后产生的主键集合作为网络表格的实体列。
【技术特征摘要】
1.一种基于属性间依赖关系的网络表格的实体列检测方法,其特征在于,包括:针对一个网络表格,根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率,根据所述近似函数依赖概率获取候选函数依赖集;根据网络表格的特点,删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集;对近似函数依赖集进行3NF规范化,将3NF规范化后产生的主键集合作为网络表格的实体列。2.根据权利要求1所述的方法,其特征在于,所述的针对一个网络表格,根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率,根据所述近似函数依赖概率获取候选函数依赖集,包括:设X是网络表格T中的某个属性,A是T中不同于X的属性,当T中存在部分元组的(X,A)属性值对,使得X→A成立,则称X近似函数确定A或A近似函数依赖于X,记作表示X→A在T上成立的近似函数依赖概率,(X,A)属性值对中使得X→A成立的数据称为一致性数据,其余称为不一致性数据;在网络表格T中,对于X属性值为vx的元组,其A属性列中可能存在不同的值,假设该不同值的集合为VA;如果集合VA中个数最多的值唯一,则将该值作为一致性数据,如果个数最多的值不唯一,则将这些个数最多的值分别作为类中心,计算其他值和类中心值相似度的和,选择和最大时的类中心值va作为一致性数据。具体计算方法如公式(1)所示;对于任意类中心值vj;X中值为vx的所有元组,其中的一致性数据va对X→A成立的支持度Sc(X→A,VX,VA')由公式(2)计算;其中:VX={X.r|X.r=vx}VA'={A.r|X.r=vx&A.r=va}|VX,VA'|=|{<X.r,A.r>|X.r=vx&A.r=va}|VA'就是当X列取vx时,所对应A列中一致性数据的集合,X.r为X列r行单元格的值,A.r为A列r行单元格的值;不一致性数据对X→A成立的支持度Snc(X→A,VX,VA*)的计算公式由公式(3)计算;集合VX对X→A成立的支持度通过一致性数据和不一致性数据对X→A成立的支持度的加权平均和表示,由公式(5)计算:其中ω1+ω2=1;取X中所有不同元组的支持度,它们的平均值作为网络表格T中X→A成立的概率,由公式(6)计算:其中|DX|表示X中有区别的VX的个数;表示网络表格T中的一种近似函数依赖成立的概率,候选函数依赖集中包含网络表格T中所有可能的近似函数依赖。3.根据权利要求2所述的方法,其特征在于,所述的根据网络表格的特点,删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集,包括:如果候选函数依赖集中的近似函数依赖关系满足以下3条规则中的任一条,则将从候选近似函数依赖集中删去:规则1:若X列的属性值的类型为日期类型、浮点类型或者布尔类型:规则2:若在网络表格T中存在属性列Y,使得成立;规则3:若在候选近似函数依赖集中,存在这样的属性列X和A,使得且4.根据权利要求3所述的方法,其特征在于,所述的对近似函数依赖集进行3NF规范化,将3NF规范化后产生的主键集合作为网络表格的实体列,包括:将近似函数依赖集中的近似函数依赖关系映射到关系...
【专利技术属性】
技术研发人员:王宁,张丽方,
申请(专利权)人:北京交通大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。