【技术实现步骤摘要】
基于概率图模型的网络表格列类型检测方法
[0001]本专利技术属于语义网中的表格解释领域,主要涉及一种基于概率图模型的网络表格列类型检测方法。
技术介绍
[0002]网络表格使用固定结构来呈现其内容,提供由属性描述的实体的紧凑表示以及实体间的关系,并且与其他类型的表(例如主要用于格式化目的的布局表或者用于以网格格式显示数字摘要的矩阵表)不同,它的结构包含着十分有价值的关系型知识。同时与非结构化数据相比,它的研究又减少了提取和解释数据的工作量。出于上述原因,网络表格越来越受到研究界的关注。网络表格中蕴含着丰富的知识,目前存在许多利用网络表格这种丰富的半结构化数据资源的实际用例,包括问题回答、表格搜索、表格扩充、知识库补全、语义检索和创建链接开放数据等。
[0003]网络表格数据的有用性很大程度上取决于对其语义的理解,恢复表格语义的一种方法是将其与知识库相匹配,这一过程也被称为“表格语义解释”,即开发有效的方法来提取和解释Web表中的信息。表格语义解释主要包含以下三种任务:列类型检测、单元格实体匹配和列间属性关系注释。其 ...
【技术保护点】
【技术特征摘要】
1.一种基于概率图模型的网络表格列类型检测方法,其特征在于:该方法包括以下步骤:步骤1:网络表格拼接:将网络表格数据集中具有相同列标题的网络表格拼接成一张表格,获得拼接表格;步骤2:针对步骤1中获得的拼接表格进行单列分类:首先将所述拼接表格中的列划分为数值型列和字符型列,然后分别针对数值型列和字符型列进行分类;步骤3:基于步骤2的单列分类结果,构建概率图模型挖掘列间隐含的语义关系,实现对整张表的列类型序列的检测。2.根据权利要求1所述的基于概率图模型的网络表格列类型检测方法,其特征在于:所述网络表格数据集的获取方法为:遍历网络表格语料库,在同一网站下寻找具有相同一组列标题的关系型表格形成网络表格数据集。3.根据权利要求1所述的基于概率图模型的网络表格列类型检测方法,其特征在于:利用启发式方法将所述拼接表格中的列划分为数值型列和字符型列。4.根据权利要求1所述的基于概率图模型的网络表格列类型检测方法,其特征在于:针对所述数值型列进行分类的方法为:给定一组彼此不相交的k个知识库类型的集合,表示为{V1,V2,...,V
k
},V
i
∈|V|,其中|V|为知识库中预定义的语义类型集合,将表格数据作为输入,通过基于随机森林的分类器为每一个类别V
i
分配一个实际的概率得分从而得到整列的概率得分为使得目标列的正确类型所在的位置具有最高的概率值得分;所述基于随机森林的分类器是指采用基于统计特征的分类方式,提取数值信息中的均值、方差、中位数、众数、最大值、最小值、峰值、偏度和标准差;提取文字信息中每个字母出现的频率、字符长度的均值与方差,以及具有字符的单元格的占比;再将提取的所有统计量作为特征,利用随机森林算法对分类过程进行建模。5.根据权利要求1所述的基于概率图模型的网络表格列类型检测方法,其特征在于:针对所述字符型列进行分类的方法为:通过融合词嵌入和字符嵌入表达文本语义,使用融合行列信息的单元格嵌入方法,并利用得到的单元格向量表示构建基于深度学习的分类模型,生成单列在各个类型下的概率值。6.根据权利要求5所述的基于概率图模型的网络表格列类型检测方法,其特征在于:针对所述字符型列进行分类的方法具体包括如下步骤:步骤2.3.1:单元格文本向量化:将单元格文本视为一段长度为N的初始文本,使用预训练的词向量模型GloVe和一维卷积神经网络1D
‑
CNN分别得到单元格文本的单词嵌入向量和字符嵌入向量后,将二者垂直联接产生一个矩阵,接着将该矩阵通过高速神经网络Highway
‑
NN得到融合词嵌入和字符嵌入的词向量;步骤2.3.2,单元格嵌入过程:除了目标单元格自身携带的信息外,关注与目标单元格位于同一列和同一行的其他单元格中的信息,以充分学习各种隐式连接;步骤2.3.2.1,列间聚合:针对位于m行n列的目标单元格t
m,n
,聚合n列其他单元格t
m',n
(m'≠m)的上下文信息;步骤2.3.2.2,行间聚合:针对位于m行n列的目标单元格t
m,n
,聚合m行中其他单元格的上下文信息;
步骤2.3.2.3,单元格嵌入表示:将目标单元格自身携带的信息以及与所述目标单元格相关的行间聚合信息和列间聚合信息融合在一起以获取所述目标单元格的全部文本语义表示;步骤2.3.3,字符列分类过程:通过聚合待检测目标列的所有单元格的嵌入获得整列的语义嵌入,利用该嵌入作为输入训练字符列分类模型。7.根据权利要...
【专利技术属性】
技术研发人员:申德荣,郭彤,聂铁铮,寇月,于戈,
申请(专利权)人:东北大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。