一种基于本体和语义相似度的多源数据样本关联方法技术

技术编号：22135307 阅读：35 留言：0更新日期：2019-09-18 09:01

本发明专利技术是一种基于本体和语义相似度的多源数据样本关联方法，包括以下步骤：采用多个领域本体概念分别作为关键词抓取信息数据，信息数据包括国家基础信息数据和图片文本；基于各个领域本体概念对所对应的图片文本进行分类，根据图片文本的类别对所对应的国家基础信息数据进行类别表识；基于各个领域本体概念所对应的属性，对所对应的国家基础信息数据进行属性表识。解决了国家基础信息数据与其图片文本不匹配的问题，能够利用集合包技术得到正确的图片表识数据，并且采取迭代处理的方式能够利用最少的成本最合理利用集合包平台，得到较优的表识效果。

An Ontology-based and Semantic Similarity-based Multi-source Data Sample Association Method

全部详细技术资料下载

【技术实现步骤摘要】
一种基于本体和语义相似度的多源数据样本关联方法
本专利技术属于人口、法人单位等国家基础信息数据以及信用、社保等领域，尤其涉及一种对国家基础信息数据进行正确快速语义表识的一种基于本体和语义相似度的多源数据样本关联方法。
技术介绍
对标精准治理、惠民服务等场景的需求，围绕人口、法人单位等国家基础信息数据以及信用、社保等领域数据资源，融合互联网社会面数据，解决多源复杂主体数据条件下的实体标识与关联方法、多模态信息特征结构表达与决策融合的关键技术问题，使具有跨时空、信息异构、非一致、大噪声等特点的政府数据转化为有价值的信息成为急需解决的技术问题。针对数据融合过程中实体标识ID缺失和非一致性问题，研究结构化与非SQL结构化数据的实体多维度标签识别和对应分析，确定具有全渠道拉通意义的标签作为标识ID，实现样本信息的一致性关联与可靠性评价。研究封闭系统数据、社会面数据等关联二义性消除方法，减小一致性误判造成的数据关联偏差和分析失效影响成为急需解决的技术问题。
技术实现思路
针对现有技术中的问题，本专利技术的目的是提供一种基于本体和语义相似度的多源数据样本关联方法，对国家基础信息数据进行正确快速语义表识，解决国家基础信息数据缺少表识以及国家基础信息数据和图片文本难以直接抽取语义信息的技术问题。为实现上述目的，本专利技术的技术方案是：一种基于本体和语义相似度的多源数据样本关联方法，包括以下步骤：采用多个领域本体概念分别作为关键词抓取信息数据，信息数据包括国家基础信息数据和图片文本；基于各个领域本体概念对所对应的图片文本进行分类，根据图片文本的类别对所对应的国家基础信息数据进行类...

【技术保护点】
1.一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：包括以下步骤：采用多个领域本体概念分别作为关键词抓取信息数据，信息数据包括基础信息数据和图片文本；基于各个领域本体概念对所对应的图片文本进行分类，根据图片文本的类别对所对应的国家基础信息数据进行类别表识；基于各个领域本体概念所对应的属性，对所对应的基础信息数据进行属性表识。

【技术特征摘要】
2019.03.27 CN 201910235415X1.一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：包括以下步骤：采用多个领域本体概念分别作为关键词抓取信息数据，信息数据包括基础信息数据和图片文本；基于各个领域本体概念对所对应的图片文本进行分类，根据图片文本的类别对所对应的国家基础信息数据进行类别表识；基于各个领域本体概念所对应的属性，对所对应的基础信息数据进行属性表识。2.根据权利要求1所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：对图片文本进行分类之前，还包括以下步骤：采用集合包平台获取国家基础信息数据的表识数据集；根据表识数据集修正各个国家基础信息数据所对应的领域本体概念。3.根据权利要求2所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：采用集合包平台获取国家基础信息数据的表识数据集，包括以下步骤：将信息数据作为待表识数据加入到集合包指令，并将集合包指令发布到集合包平台进行人工检验；从集合包平台收集表识结果数据，形成表识数据集。4.根据权利要求3所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：集合包指令包括多条待表识题目，各个待表识题目包括题干和选项；各个题干包括一信息的国家基础信息数据、图片文本和该国家基础信息数据所对应的领域本体概念，各个选项包括国家基础信息数据和所对应的领域本体概念匹配以及国家基础信息数据和所对应的领域本体概念不匹配。5.根据权利要求4所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：收集表识结果数据，包括以下步骤：选择各个国家基础信息数据所对应的选择人数最多的选项，作为该国家基础信息数据的表识结果数据。6.根据权利要求2所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：采用集合包平台获取国家基础信息数据的表识数据集，包括以下步骤：将信息数据作为待表识数据，并将待表识数据分为多个迭代部分；选取第一部分待表识数据加入到集合包指令，并将集合包指令发布到集合包平台进行人工检验；从集合包平台收集表识结果数据，且在每次收集表识结果数据后，判断全部待表识数据中表识准确率是否小于预设准确率阈值；如果全部待表识数据中表识准确率小于预设准确率阈值，则选取下一部分...

【专利技术属性】
技术研发人员：丁香乾，王晓东，许晓伟，
申请(专利权)人：中国海洋大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人