中文网络百科知识去燥方法、系统及知识库技术方案

技术编号:21184676 阅读:29 留言:0更新日期:2019-05-22 15:17
本发明专利技术涉及一种中文网络百科知识去燥方法、系统及知识库,属于计算机技术领域。该中文网络百科知识去燥方法,基于编辑距离和同义词词林方法相融合,借助中文百科的词条标签构建Infobox知识三元组(Triple)数据场来首先对海量知识三元组去燥,目的是尽量减少中文开放百科知识库中大量重复歧义的现象,解决了现有技术中构建中文知识库时,语义重复、同义和知识三元组被不恰当归类等问题。

Method, System and Knowledge Base of Chinese Cyberencyclopedia Knowledge Dedrying

The invention relates to a method, system and knowledge base for drying Chinese network Encyclopedia knowledge, belonging to the field of computer technology. Based on the integration of editing distance and synonym word forest method, this method constructs Infobox knowledge triple data field with the help of Chinese encyclopedia entry label to remove the dryness of massive knowledge triples. The purpose is to minimize the phenomenon of repeated ambiguities in Chinese open encyclopedia knowledge base and solve the problem of constructing Chinese knowledge base in existing technology. Semantic repetition, synonyms and knowledge triples are not properly categorized.

【技术实现步骤摘要】
中文网络百科知识去燥方法、系统及知识库
本专利技术属于计算机
,具体涉及一种中文网络百科知识去燥方法、系统及知识库。
技术介绍
随着计算机网络及移动互联等技术的发展应用,因特网逐步成为人们信息发布、交流、共享的主要平台。信息查询、知识获取、技能学习逐步实现线下向线上转变,存储结构由文本化向半结构化、格式化存储格式转变,在线百科全书、百科网站等新型信息载体迅速发展,存储数据量急速积累增长。作为存储、组织和处理知识以及提供知识服务的重要知识集合,知识库的构建正在成为各行各业开展知识管理和知识服务的基础。但是,由于中文词语概念之间存在大量的重复、同义以及知识被不恰当归类等现象,使得中文网络百科知识库存在效率和准确性较低的问题。
技术实现思路
为了解决现有技术存在的中文网络百科知识库中语义重复、知识三元组被不恰当归类等问题,本专利技术提供了一种中文网络百科知识去燥方法、系统及知识库,具有查准率高等特点。本专利技术提供以下技术方案:一方面,一种中文网络百科知识去燥方法,所述方法包括:在中文网络开放百科资源中收集原始数据;基于所述原始数据,对预设概念所隶属的词条,进行词条web页面上的Infobox知识三元组的爬取和解析;爬取预设子类所包含的所述Infobox知识三元组的词条标签,将所述标签添加到所述Infobox知识三元组后;计算所述Infobox知识三元组初始相似度;对所述Infobox知识三元组标签添加语义距离,并根据所述初始相似度,通过数据场按照预设方法获取Infobox知识三元组目标相似度;根据所述Infobox知识三元组目标相似度进行知识去燥。进一步可选地,所述基于所述原始数据,对预设概念所隶属的词条,进行词条web页面上的Infobox知识三元组的爬取和解析之后,还包括:每一个顶层大类包含子类本体概念,所述子类本体概念中包含相应的所述三元组。进一步可选地,还包括:根据语义的关系对所有的子类概念的三元组以标注Y或N的形式进行筛选。进一步可选地,所述基于所述原始数据,对预设概念所隶属的词条,进行词条web页面上的Infobox知识三元组的爬取和解析,包括:使用爬虫工具对互动百科和百度百科的开放分类页面和词条页面所包含的百度百科结构化信息进行爬取和解析。进一步可选地,所述计算所述Infobox知识三元组初始相似度,包括:基于编辑距离计算所述三元组第一初始相似度;基于同义词词林计算所述三元组第二初始相似度;对所述第一初始相似度与所述第二初始相似度按照预设方式进行互补融合,获取初始相似度。进一步可选地,所述对所述Infobox知识三元组标签添加语义距离,包括:通过遍历中文百科分类树进行语义距离计算。进一步可选地,还包括:引入标签语义距离改进的拟核力场势函数。进一步可选地,所述通根据所述Infobox知识三元组目标相似度进行知识去燥,包括:对原始文档与经过改进数据场算法处理后的文档按照所述相似度从大到小进行排列,获取预设个数的原始数据,进行知识去燥。又一方面,一种中文网络百科知识去燥系统,其特征在于,所述系统包括:收集模块、获取模块、计算模块和知识去燥模块。所述收集模块,用于在中文网络开放百科资源中收集原始数据;所述获取模块,包括第一获取单元与第二获取单元;所述第一获取单元用于基于所述原始数据,对预设概念所隶属的词条,进行词条web页面上的Infobox知识三元组的爬取和解析;所述第二获取单元,用于爬取预设子类所包含的所述Infobox知识三元组的词条标签,将所述标签添加到所述Infobox知识三元组后;所述计算模块包括第一计算单元与第二计算单元;所述第一计算单元用于计算所述Infobox知识三元组初始相似度;所述第二计算单元用于对所述Infobox知识三元组标签添加语义距离,并根据所述初始相似度,通过数据场按照预设方法获取Infobox知识三元组目标相似度;所述知识去燥模块用于根据所述Infobox知识三元组目标相似度进行知识去燥。又一方面,一种知识库,其特征在于,所述知识库的构建应用上述任意一项所述的中文网络百科知识去燥方法。本专利技术实施例提供的一种中文网络百科知识去燥方法、系统及知识库,基于编辑距离和同义词词林方法相融合,借助词条标签构建知识三元组数据场来首先对海量知识三元组去燥,来尽量减少中文开放百科知识库中大量重复歧义的现象,解决了现有技术中构建中文知识库时,语义重复、同义以及词条Infobox知识三元组被不恰当归类等问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供实施例中文网络百科知识去燥方法的流程图;图2为本专利技术提供实施例中文网络百科知识去燥系统的结构示意图;图3为本专利技术提供中文网络百科知识去燥方法验证实施例子类后41%N个数对比柱形示意图;图4为本专利技术提供中文网络百科知识去燥方法验证实施例子类后41%N个数对比折线示意图;图5为本专利技术提供中文网络百科知识去燥方法验证实施例两个阶段删除后41%的P值对比柱形示意图;图6为本专利技术提供中文网络百科知识去燥方法验证实施例两个阶段删除后41%的P值对比折线示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。为了更加清楚地说明本实施例专利技术方法的过程和优点,本专利技术提供一种中文网络百科知识去燥方法,本专利技术实施例的方法包括:在中文网络开放百科资源中收集原始数据;基于原始数据,对预设概念所隶属的词条,进行词条web页面上的Infobox知识三元组的爬取和解析;爬取预设子类所包含的Infobox知识三元组的词条标签,将标签添加到Infobox知识三元组后;计算Infobox知识三元组初始相似度;对Infobox知识三元组标签添加语义距离,并根据初始相似度,通过数据场按照预设方法获取Infobox知识三元组目标相似度;根据Infobox知识三元组目标相似度进行知识去燥。本专利技术实施例提供的一种中文网络百科知识去燥方法,基于编辑距离和同义词词林方法相融合,借助词条标签构建知识三元组数据场来首先对海量知识三元组去燥,来尽量减少中文开放百科知识库中大量重复歧义的现象,解决了现有技术中构建中文知识库时,语义重复、同义以及知识三元组被不恰当归类等问题。基于上述一种中文知识库构建方法,本专利技术实施例提供一可选实施例:图1为本专利技术提供实施例中文网络百科知识去燥方法的流程图。参见图1,本实施例的中文网络百科知识去燥方法可以包括以下步骤:S11、在中文网络开放百科资源中收集原始数据。具体地,选取中文网络百科资源,例如,选取百度百科和互动百科的词条web页面作为原始数据源,在原始数据源中收集原始数据。S12、基于原始数据,对预设概念所隶属的词条,进行词条web页面上的Infobox知识三元组的爬取和解析;。具体地,使用爬虫工具本文档来自技高网...

【技术保护点】
1.一种中文网络百科知识去燥方法,其特征在于,所述方法包括:在中文网络开放百科资源中收集原始数据;基于所述原始数据,对预设概念所隶属的词条,进行词条web页面上的Infobox知识三元组的爬取和解析;爬取预设子类所包含的所述Infobox知识三元组的词条标签,将所述标签添加到所述Infobox知识三元组后;计算所述Infobox知识三元组初始相似度;对所述Infobox知识三元组标签添加语义距离,并根据所述初始相似度,通过数据场按照预设方法获取Infobox知识三元组目标相似度;根据所述Infobox知识三元组目标相似度进行知识去燥。

【技术特征摘要】
1.一种中文网络百科知识去燥方法,其特征在于,所述方法包括:在中文网络开放百科资源中收集原始数据;基于所述原始数据,对预设概念所隶属的词条,进行词条web页面上的Infobox知识三元组的爬取和解析;爬取预设子类所包含的所述Infobox知识三元组的词条标签,将所述标签添加到所述Infobox知识三元组后;计算所述Infobox知识三元组初始相似度;对所述Infobox知识三元组标签添加语义距离,并根据所述初始相似度,通过数据场按照预设方法获取Infobox知识三元组目标相似度;根据所述Infobox知识三元组目标相似度进行知识去燥。2.根据权利要求1所述的方法,其特征在于,所述基于所述原始数据,对预设概念所隶属的词条,进行词条web页面上的Infobox知识三元组的爬取和解析之后,还包括:每一个百科顶层大类下都包含子类本体概念,所述子类本体概念下即包含相应的所述三元组。3.根据权利要求2所述的方法,其特征在于,还包括:根据语义关系对所有的子类概念的三元组以标注Y或N的形式进行筛选。4.根据权利要求1所述的方法,其特征在于,所述基于所述原始数据,对预设概念所隶属的词条,进行词条web页面上的Infobox知识三元组的爬取和解析,包括:使用爬虫工具对互动百科和百度百科的开放分类页面和词条页面所包含的互动百科和百度百科词条web页面的结构化信息(Infobox)进行爬取和解析。5.根据权利要求1所述的方法,其特征在于,所述计算所述Infobox知识三元组初始相似度,包括:基于编辑距离计算所述三元组第一初始相似度;基于同义词词林计算所述三元组第二初始相似度;对所述第一初始相似度与所述...

【专利技术属性】
技术研发人员:王汀
申请(专利权)人:首都经济贸易大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1