中文网络百科知识去燥方法、系统及知识库技术方案

技术编号：21184676 阅读：29 留言：0更新日期：2019-05-22 15:17

本发明专利技术涉及一种中文网络百科知识去燥方法、系统及知识库，属于计算机技术领域。该中文网络百科知识去燥方法，基于编辑距离和同义词词林方法相融合，借助中文百科的词条标签构建Infobox知识三元组(Triple)数据场来首先对海量知识三元组去燥，目的是尽量减少中文开放百科知识库中大量重复歧义的现象，解决了现有技术中构建中文知识库时，语义重复、同义和知识三元组被不恰当归类等问题。

Method, System and Knowledge Base of Chinese Cyberencyclopedia Knowledge Dedrying

The invention relates to a method, system and knowledge base for drying Chinese network Encyclopedia knowledge, belonging to the field of computer technology. Based on the integration of editing distance and synonym word forest method, this method constructs Infobox knowledge triple data field with the help of Chinese encyclopedia entry label to remove the dryness of massive knowledge triples. The purpose is to minimize the phenomenon of repeated ambiguities in Chinese open encyclopedia knowledge base and solve the problem of constructing Chinese knowledge base in existing technology. Semantic repetition, synonyms and knowledge triples are not properly categorized.

全部详细技术资料下载

【技术实现步骤摘要】
中文网络百科知识去燥方法、系统及知识库
本专利技术属于计算机
，具体涉及一种中文网络百科知识去燥方法、系统及知识库。
技术介绍
随着计算机网络及移动互联等技术的发展应用，因特网逐步成为人们信息发布、交流、共享的主要平台。信息查询、知识获取、技能学习逐步实现线下向线上转变，存储结构由文本化向半结构化、格式化存储格式转变，在线百科全书、百科网站等新型信息载体迅速发展，存储数据量急速积累增长。作为存储、组织和处理知识以及提供知识服务的重要知识集合，知识库的构建正在成为各行各业开展知识管理和知识服务的基础。但是，由于中文词语概念之间存在大量的重复、同义以及知识被不恰当归类等现象，使得中文网络百科知识库存在效率和准确性较低的问题。
技术实现思路
为了解决现有技术存在的中文网络百科知识库中语义重复、知识三元组被不恰当归类等问题，本专利技术提供了一种中文网络百科知识去燥方法、系统及知识库，具有查准率高等特点。本专利技术提供以下技术方案：一方面，一种中文网络百科知识去燥方法，所述方法包括：在中文网络开放百科资源中收集原始数据；基于所述原始数据，对预设概念所隶属的词条，进行词条web页面上的Infobox知识三元组的爬取和解析；爬取预设子类所包含的所述Infobox知识三元组的词条标签，将所述标签添加到所述Infobox知识三元组后；计算所述Infobox知识三元组初始相似度；对所述Infobox知识三元组标签添加语义距离，并根据所述初始相似度，通过数据场按照预设方法获取Infobox知识三元组目标相似度；根据所述Infobox知识三元组目标相似度进行知识去燥。进一步可选...

【技术保护点】
1.一种中文网络百科知识去燥方法，其特征在于，所述方法包括：在中文网络开放百科资源中收集原始数据；基于所述原始数据，对预设概念所隶属的词条，进行词条web页面上的Infobox知识三元组的爬取和解析；爬取预设子类所包含的所述Infobox知识三元组的词条标签，将所述标签添加到所述Infobox知识三元组后；计算所述Infobox知识三元组初始相似度；对所述Infobox知识三元组标签添加语义距离，并根据所述初始相似度，通过数据场按照预设方法获取Infobox知识三元组目标相似度；根据所述Infobox知识三元组目标相似度进行知识去燥。

【技术特征摘要】
1.一种中文网络百科知识去燥方法，其特征在于，所述方法包括：在中文网络开放百科资源中收集原始数据；基于所述原始数据，对预设概念所隶属的词条，进行词条web页面上的Infobox知识三元组的爬取和解析；爬取预设子类所包含的所述Infobox知识三元组的词条标签，将所述标签添加到所述Infobox知识三元组后；计算所述Infobox知识三元组初始相似度；对所述Infobox知识三元组标签添加语义距离，并根据所述初始相似度，通过数据场按照预设方法获取Infobox知识三元组目标相似度；根据所述Infobox知识三元组目标相似度进行知识去燥。2.根据权利要求1所述的方法，其特征在于，所述基于所述原始数据，对预设概念所隶属的词条，进行词条web页面上的Infobox知识三元组的爬取和解析之后，还包括：每一个百科顶层大类下都包含子类本体概念，所述子类本体概念下即包含相应的所述三元组。3.根据权利要求2所述的方法，其特征在于，还包括：根据语义关系对所有的子类概念的三元组以标注Y或N的形式进行筛选。4.根据权利要求1所述的方法，其特征在于，所述基于所述原始数据，对预设概念所隶属的词条，进行词条web页面上的Infobox知识三元组的爬取和解析，包括：使用爬虫工具对互动百科和百度百科的开放分类页面和词条页面所包含的互动百科和百度百科词条web页面的结构化信息(Infobox)进行爬取和解析。5.根据权利要求1所述的方法，其特征在于，所述计算所述Infobox知识三元组初始相似度，包括：基于编辑距离计算所述三元组第一初始相似度；基于同义词词林计算所述三元组第二初始相似度；对所述第一初始相似度与所述...

【专利技术属性】
技术研发人员：王汀，
申请(专利权)人：首都经济贸易大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人