一种基于本体和语义相似度的多源数据样本关联方法技术

技术编号:22135307 阅读:35 留言:0更新日期:2019-09-18 09:01
本发明专利技术是一种基于本体和语义相似度的多源数据样本关联方法,包括以下步骤:采用多个领域本体概念分别作为关键词抓取信息数据,信息数据包括国家基础信息数据和图片文本;基于各个领域本体概念对所对应的图片文本进行分类,根据图片文本的类别对所对应的国家基础信息数据进行类别表识;基于各个领域本体概念所对应的属性,对所对应的国家基础信息数据进行属性表识。解决了国家基础信息数据与其图片文本不匹配的问题,能够利用集合包技术得到正确的图片表识数据,并且采取迭代处理的方式能够利用最少的成本最合理利用集合包平台,得到较优的表识效果。

An Ontology-based and Semantic Similarity-based Multi-source Data Sample Association Method

【技术实现步骤摘要】
一种基于本体和语义相似度的多源数据样本关联方法
本专利技术属于人口、法人单位等国家基础信息数据以及信用、社保等领域,尤其涉及一种对国家基础信息数据进行正确快速语义表识的一种基于本体和语义相似度的多源数据样本关联方法。
技术介绍
对标精准治理、惠民服务等场景的需求,围绕人口、法人单位等国家基础信息数据以及信用、社保等领域数据资源,融合互联网社会面数据,解决多源复杂主体数据条件下的实体标识与关联方法、多模态信息特征结构表达与决策融合的关键技术问题,使具有跨时空、信息异构、非一致、大噪声等特点的政府数据转化为有价值的信息成为急需解决的技术问题。针对数据融合过程中实体标识ID缺失和非一致性问题,研究结构化与非SQL结构化数据的实体多维度标签识别和对应分析,确定具有全渠道拉通意义的标签作为标识ID,实现样本信息的一致性关联与可靠性评价。研究封闭系统数据、社会面数据等关联二义性消除方法,减小一致性误判造成的数据关联偏差和分析失效影响成为急需解决的技术问题。
技术实现思路
针对现有技术中的问题,本专利技术的目的是提供一种基于本体和语义相似度的多源数据样本关联方法,对国家基础信息数据进行正确快速语义表识,解决国家基础信息数据缺少表识以及国家基础信息数据和图片文本难以直接抽取语义信息的技术问题。为实现上述目的,本专利技术的技术方案是:一种基于本体和语义相似度的多源数据样本关联方法,包括以下步骤:采用多个领域本体概念分别作为关键词抓取信息数据,信息数据包括国家基础信息数据和图片文本;基于各个领域本体概念对所对应的图片文本进行分类,根据图片文本的类别对所对应的国家基础信息数据进行类别表识;基于各个领域本体概念所对应的属性,对所对应的国家基础信息数据进行属性表识。进一步的,对图片文本进行分类之前,还包括以下步骤:采用集合包平台获取国家基础信息数据的表识数据集;根据表识数据集修正各个国家基础信息数据所对应的领域本体概念。进一步的,采用集合包平台获取国家基础信息数据的表识数据集,包括以下步骤:将信息数据作为待表识数据加入到集合包指令,并将集合包指令发布到集合包平台进行人工检验;从集合包平台收集表识结果数据,形成表识数据集。进一步的,集合包指令包括多条待表识题目,各个待表识题目包括题干和选项;各个题干包括一信息的国家基础信息数据、图片文本和该国家基础信息数据所对应的领域本体概念,各个选项包括国家基础信息数据和所对应的领域本体概念匹配以及国家基础信息数据和所对应的领域本体概念不匹配。进一步的,收集表识结果数据,包括以下步骤:选择各个国家基础信息数据所对应的选择人数最多的选项,作为该国家基础信息数据的表识结果数据。进一步的,采用集合包平台获取国家基础信息数据的表识数据集,包括以下步骤:将信息数据作为待表识数据,并将待表识数据分为多个迭代部分;选取第一部分待表识数据加入到集合包指令,并将集合包指令发布到集合包平台进行人工检验;从集合包平台收集表识结果数据,且在每次收集表识结果数据后,判断全部待表识数据中表识准确率是否小于预设准确率阈值;如果全部待表识数据中表识准确率小于预设准确率阈值,则选取下一部分待表识数据加入到集合包指令,并将集合包指令发布到集合包平台进行迭代人工检验;如果全部待表识数据中表识准确率大于或等于预设准确率阈值,则停止迭代人工检验并形成国家基础信息数据的表识数据集。进一步的,当全部待表识数据中表识准确率小于预设准确率阈值时,判断当前人工检验的迭代次数是否小于预设迭代次数阈值;如果当前人工检验的迭代次数小于预设迭代次数阈值,则选取下一部分待表识数据加入到集合包指令,并将集合包指令发布到集合包平台进行迭代人工检验;如果当前人工检验的迭代次数大于等于预设迭代次数阈值,则停止迭代人工检验并形成国家基础信息数据的表识数据集。进一步的,信息描述文本包括国家基础信息数据所对应的信息序号、信息标题、信息属性以及信息属性值。进一步的,采用领域本体概念对图片文本进行分类,包括以下步骤:将图片文本采用Word2Vector方法训练得到各个词的词矢量;采用TextRank算法从图片文本中的信息标题、信息属性以及信息属性值中分别提取top-K关键词;抽取每个关键词的TF-IDF特征和词矢量;将TF-IDF特征作为每个关键词的权重,对所有关键词集合的词矢量以加权平均的方式合并,得到图片文本的特征矢量矩阵,图片文本的特征矢量矩阵满足以下公式:Xn={X1,X2,......,XN};其中,Xn为图片文本的特征矢量矩阵,Xi,i∈(1,N)为各个图片文本的特征矢量,N为图片文本的数量;采用最近邻算法训练分类器,分类器的特征矢量满足以下公式:T_train=(X1,y1),(X2,y2),......,(XN,yN);其中,T_train为分类器的特征矢量,yi,i∈(1,N)为分类标签;从特征矢量矩阵Xn中抽取一信息描述文本的特征矢量Xi,将分类器中与特征矢量Xi最近邻的类别作为所对应的信息描述文本的类别。进一步的,训练得到各个词的词矢量之前,还包括以下步骤:对图片文本进行文本格式预处理,文本格式预处理包括统一文本大小写格式和去除文本中标点符号。进一步的,将分类器中与特征矢量Xi最近邻的类别作为所对应的信息描述文本的类别,包括以下步骤:计算特征矢量Xi与分类器的特征矢量之间的欧氏距离;选择分类器中与特征矢量Xi的欧氏距离最小的多个样本;将多个样本中出现次数最多的分类标签作为所对应的信息描述文本的类别。进一步的,对所对应的国家基础信息数据进行属性表识,包括以下步骤:对图片文本的特征矢量矩阵采用K-means聚类算法对信息属性以及信息属性值进行聚合,选取相似度最接近的top-K国家基础信息数据作为一个簇,隶属于同一簇的国家基础信息数据共享所有的信息属性以及信息属性值;计算各个国家基础信息数据描述文本聚合后的属性和属性值与所对应的领域本体概念的概念属性之间的编辑距离,将与概念属性编辑距离最小的属性的属性值映射到概念属性,作为概念属性的属性值。本专利技术所提供的一种基于本体和语义相似度的多源数据样本关联方法具有以下优点:本专利技术提供了一种对国家基础信息数据进行正确快速语义表识的技术方案,解决了国家基础信息数据与其图片文本不匹配的问题,能够根据领域本体的概念和概念属性得到国家基础信息数据在预定领域内的部分语义信息,实现对国家基础信息数据的语义层次表识,获得正确的语义表识数据集;能够利用集合包技术得到正确的图片表识数据,并且采取迭代处理的方式能够利用最少的成本最合理利用集合包平台,得到较优的表识效果。附图说明图1为本专利技术的流程示意图。具体实施方式下面结合附图实施例,对本专利技术做进一步描述:实施例1如图1所示,为了解决国家基础信息数据以及其图片文本包含的语义信息较弱的问题,本专利技术实施例提供一种基于本体和语义相似度的多源数据样本关联方法,基于领域本体的概念以及领域本体概念属性对国家基础信息数据进行语义表识,具体方法包括以下步骤:S100:采用领域本体概念C分别作为关键词抓取信息数据,信息数据Itemn包括国家基础信息数据IMGn和图片文本Tn;图片文本Tn可选包括:信息IDn、信息标题titlen、信息属性和信息属性值attributesn={key1:value1,.....本文档来自技高网...

【技术保护点】
1.一种基于本体和语义相似度的多源数据样本关联方法,其特征在于:包括以下步骤:采用多个领域本体概念分别作为关键词抓取信息数据,信息数据包括基础信息数据和图片文本;基于各个领域本体概念对所对应的图片文本进行分类,根据图片文本的类别对所对应的国家基础信息数据进行类别表识;基于各个领域本体概念所对应的属性,对所对应的基础信息数据进行属性表识。

【技术特征摘要】
2019.03.27 CN 201910235415X1.一种基于本体和语义相似度的多源数据样本关联方法,其特征在于:包括以下步骤:采用多个领域本体概念分别作为关键词抓取信息数据,信息数据包括基础信息数据和图片文本;基于各个领域本体概念对所对应的图片文本进行分类,根据图片文本的类别对所对应的国家基础信息数据进行类别表识;基于各个领域本体概念所对应的属性,对所对应的基础信息数据进行属性表识。2.根据权利要求1所述的一种基于本体和语义相似度的多源数据样本关联方法,其特征在于:对图片文本进行分类之前,还包括以下步骤:采用集合包平台获取国家基础信息数据的表识数据集;根据表识数据集修正各个国家基础信息数据所对应的领域本体概念。3.根据权利要求2所述的一种基于本体和语义相似度的多源数据样本关联方法,其特征在于:采用集合包平台获取国家基础信息数据的表识数据集,包括以下步骤:将信息数据作为待表识数据加入到集合包指令,并将集合包指令发布到集合包平台进行人工检验;从集合包平台收集表识结果数据,形成表识数据集。4.根据权利要求3所述的一种基于本体和语义相似度的多源数据样本关联方法,其特征在于:集合包指令包括多条待表识题目,各个待表识题目包括题干和选项;各个题干包括一信息的国家基础信息数据、图片文本和该国家基础信息数据所对应的领域本体概念,各个选项包括国家基础信息数据和所对应的领域本体概念匹配以及国家基础信息数据和所对应的领域本体概念不匹配。5.根据权利要求4所述的一种基于本体和语义相似度的多源数据样本关联方法,其特征在于:收集表识结果数据,包括以下步骤:选择各个国家基础信息数据所对应的选择人数最多的选项,作为该国家基础信息数据的表识结果数据。6.根据权利要求2所述的一种基于本体和语义相似度的多源数据样本关联方法,其特征在于:采用集合包平台获取国家基础信息数据的表识数据集,包括以下步骤:将信息数据作为待表识数据,并将待表识数据分为多个迭代部分;选取第一部分待表识数据加入到集合包指令,并将集合包指令发布到集合包平台进行人工检验;从集合包平台收集表识结果数据,且在每次收集表识结果数据后,判断全部待表识数据中表识准确率是否小于预设准确率阈值;如果全部待表识数据中表识准确率小于预设准确率阈值,则选取下一部分...

【专利技术属性】
技术研发人员:丁香乾王晓东许晓伟
申请(专利权)人:中国海洋大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1