【技术实现步骤摘要】
一种融合Wikidata的实体对齐方法
[0001]本专利技术涉及自然语言处理
,具体地说是一种融合Wikidata的实体对齐方法。
技术介绍
[0002]在医疗、教育等知识密集型的业务领域,往往需要构建基于互联网内容的搜索查询系统,其中一个解决方法是通过将业务结构化数据和Wikidata等百科类数据融合,为结构化数据和Wikidata数据建立关联关系,实现对Wikidata数据的覆盖,支撑后续检索及分析等需求。但目前使用的方法并不能很好的实现Wikidata数据与业务数据的真正融合,限制了应用时的检索效率。
技术实现思路
[0003]本专利技术的技术任务是针对以上不足之处,提供一种融合Wikidata的实体对齐方法,可以支撑数据融合及检索需求,实现Wikidata数据与业务数据的真正融合,提高检索效率。
[0004]本专利技术解决其技术问题所采用的技术方案是:
[0005]一种融合Wikidata的实体对齐方法,通过数据预处理,根据Wikidata
[0006]中标签信息及具体 ...
【技术保护点】
【技术特征摘要】
1.一种融合Wikidata的实体对齐方法,其特征在于通过数据预处理,根据Wikidata中标签信息及具体业务数据进行分组,具体到每个分组,对业务数据中的每个实体和Wikidata中每个实体构建匹配对,通过计算相似度选择匹配实体对。2.根据权利要求1所述的一种融合Wikidata的实体对齐方法,其特征在于针对未匹配到结果的业务实体,去CN
‑
Dbpedia匹配实体,并利用Wikidata和CN
‑
Dbpedia间映射关系将业务实体匹配到Wikidata中对应实体。3.根据权利要求2所述的一种融合Wikidata的实体对齐方法,其特征在于在业务数据模型的基础上,构建融合Wikidata数据的数据模型增加数值类型属性以及数据标签。4.根据权利要求3所述的一种融合Wikidata的实体对齐方法,其特征在于所述增加数值类型属性,取值范围包括时间、复合属性、原始属性、地理坐标、实体以及数量,针对每种取值类型构建相应的数据模型。5.根据权利要求3或4所述的一种融合Wikidata的实体对齐方法,其特征...
【专利技术属性】
技术研发人员:陈其宾,李锐,王建华,
申请(专利权)人:济南浪潮高新科技投资发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。