The invention discloses a method for constructing a knowledge base for a multi-source network encyclopedia. The method is as follows: 1) from a number of online encyclopedia to crawl the page set, and the categories of information extraction from web pages in each page; 2) category tree construction categories based on information and category information and category tree correspondence, and form the knowledge base class system; each page corresponding to the extracted network encyclopedia alias information construction the concept of the online encyclopedia dictionary; 3) to grab the page to be heavy, the concept of the knowledge base collection; 4) selected three tuple information from the page information box and text of each page in the collection; 5) the passenger body three in a tuple into a standard format, then according to the standard three categories of tuples and establishment of knowledge base system. The invention can not only output the classification system of entities, but also link entities in the three tuples to obtain high-quality three tuple knowledge, and is suitable for the requirement of generating a knowledge base in a plurality of network encyclopedias.
【技术实现步骤摘要】
一种面向多源网络百科的知识库构建方法
本专利技术主要涉及互联网领域,特别涉及开放领域和全领域的知识库构建,提出了一种全新的自动构建方法,适用于基于网络百科的知识库自动构建,属于知识库构建领域。
技术介绍
随着互联网和信息技术的不断发展,越来越多的知识通过人们的编辑、修改等方式被放到网上,网络逐渐成为人们快速获取新知识的第一途径。如何在海量的网络数据中剔除垃圾信息、提取有用的信息、生成可以批量存储和查询的结构化信息,是信息抽取领域的一个重要任务,也是构建知识库的出发点。知识库一般以(主语,谓词,客体)的三元组形式抽取和存储。比如(e.刘翔,p.出生地,e.上海)这条三元组就描述了前田径运动员刘翔的出生地点信息,这里面“刘翔”和“上海”都是知识库里的实体(或者叫“概念”)。知识库可以类比成以实体为点,通过不同类别的关系连接的有向图。常见的知识库构建方法主要分为两大类,基于网络百科的全领域知识库和基于特定领域的专家知识库。前者著名的知识库有DBpedia、Freebase,他们基于英文维基百科;后者则主要基于专家知识,往往采用手工构建的方式,可扩展性较低。英文网络百科由 ...
【技术保护点】
一种面向多源网络百科的知识库构建方法,其步骤为:1)从设定的若干网络百科抓取页面,并从抓取的每一页面中抽取页面的类别信息;2)基于所述类别信息构建类别树,并将类别信息和类别树对应,形成知识库的类别体系;提取每个网络百科对应页面的的别名信息构建该网络百科的概念词典;3)对抓取的页面进行去重,将得到的无重复的页面集合作为知识库的概念集合;4)从所述页面集合中每一页面的页面信息框和正文中抽取三元组信息;5)将所述三元组中的客体转换成标准格式,然后根据得到的标准化三元组和类别体系建立面向多源网络百科的知识库。
【技术特征摘要】
1.一种面向多源网络百科的知识库构建方法,其步骤为:1)从设定的若干网络百科抓取页面,并从抓取的每一页面中抽取页面的类别信息;2)基于所述类别信息构建类别树,并将类别信息和类别树对应,形成知识库的类别体系;提取每个网络百科对应页面的的别名信息构建该网络百科的概念词典;3)对抓取的页面进行去重,将得到的无重复的页面集合作为知识库的概念集合;4)从所述页面集合中每一页面的页面信息框和正文中抽取三元组信息;5)将所述三元组中的客体转换成标准格式,然后根据得到的标准化三元组和类别体系建立面向多源网络百科的知识库。2.如权利要求1所述的方法,其特征在于,生成所述类别体系的方法为:21)计算每一类别信息的分数,取分数靠前或大于设定阈值的多个类别信息构成一类别集合;22)对于该类别集合中的每一类别信息,根据类别信息Ci在网络百科的类别有向图中与类别信息Cj的上下级关系,在类别信息Ci的类别树上对Ci、Cj进行标记,生成所述类别树;如果类别信息Ci不在网络百科的类别有向图中,则对类别信息Ci进行分词后取最长连续后缀并将其映射到所述类别树上,生成知识库的类别体系。3.如权利要求2所述的方法,其特征在于,所述类别信息Ci的分数为Conf(Ci)=Freq(Ci)*Std(Ci);其中,Freq(Ci),Std(Ci)分别表示类别信息Ci的频率分数和标准化程度分数;Cnt(Ci)表示Ci在所有页面抽取结果中的出现频率,k为一设定平滑参数值;如果Ci是维基百科的类别名字,则isCate(Ci)为1,否则为0;WCnt(Ci)表示Ci分词之后的单词数量,其中Suf(Ci)表示Ci分词之后的连续后缀集合,xij是Ci分词之后的一连续后缀,WCct(xij)表示xij分词之后的单词数量。4.如权利要求1或2或3所述的方法,其特征在于,对抓取的页面进行去重的方法为:从同一概念词典中选取两个具有相同别名信息的页面Di,Dj,并计算二...
【专利技术属性】
技术研发人员:韩喆,冯岩松,贾爱霞,赵东岩,
申请(专利权)人:北京大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。