一种知识图谱的构建系统及方法技术方案

技术编号:19544079 阅读:1325 留言:0更新日期:2018-11-24 20:40
本发明专利技术公开了一种知识图谱的构建系统及方法,属于自然语言处理、计算机信息处理技术领域。所述系统包括:爬虫模块,对文本进行爬虫以及数据清洗;基础标注模块,用于进行包括主语补全操作在内的基础标注工作;候选关系提取模块,用于提取包括候选关系句子和/或关系实体对的候选关系;特征提取模块,用于进行特征提取;关系分类器训练模块,用于根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;关系审核模块,用于对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。本发明专利技术实现了更强的关系抽取能力,减少了人工参与的成本,提高了构建知识图谱的效率。

A Knowledge Map Construction System and Method

The invention discloses a knowledge atlas construction system and method, which belongs to the technical field of natural language processing and computer information processing. The system includes: crawler module, crawler for text and data cleaning; basic annotation module, which is used for basic annotation including subject completion operation; candidate relationship extraction module, which is used to extract candidate relationships including candidate relationship sentences and/or relational entity pairs; feature extraction module, which is used for improvement. Line feature extraction; relational classifier training module, which is used to train the model according to the results of candidate relation extraction and feature extraction, and construct relational classifier; relational auditing module, which is used to verify and determine the candidate sentence relationships obtained by the relational classifier, and classify the relationships according to the results of auditing. The device is adjusted accordingly. The invention realizes stronger relationship extraction ability, reduces the cost of manual participation, and improves the efficiency of constructing knowledge map.

【技术实现步骤摘要】
一种知识图谱的构建系统及方法
本专利技术涉及自然语言处理、计算机信息处理
,特别涉及一种知识图谱的构建系统及方法。
技术介绍
知识图谱是一种以自然语言处理(NLP)为中心,结合应用数学、图形学、信息可视化的多种技术的知识组织形式和规范。近来知识图谱在人工智能很多行业拥有成熟的应用,如搜索引擎、聊天机器人、智能医疗、智能硬件等。知识图谱分为行业知识图谱和通用知识图谱,2012年谷歌提出通用知识图谱的概念。通用知识图谱强调广度,很难生成全局性本体层统一管理。常见通用知识图谱包括:Freebase、DBpedia、zhishi.me等。行业知识图谱是基于特定领域,应对不同的业务场景,具有一定深度和完备性的知识库系统。当然通用知识图谱和行业知识图谱并不是相互对立,而是相互互补的一个关系,利用通用的知识图谱的广度结合行业知识图谱的深度,可以形成更加完善的知识图谱。知识图谱是关系的一种有效的表现方式,把不同种类的信息连接在一起得到一个关系网络。通过知识图谱,利用关系推导实现语义理解和推理。关系的基本表现形式为三元组如:<node,relation,node>,可以表示两个实体具有某一种关系,或者某一个实体含有某一种属性。例如:<张三,父母,李四>,<陈六,父母,李四>,<张三,性别,男>,<陈六,性别,女>=><张三,配偶,陈六>,四个三元组依次表示为:张三和李四是父母关系,陈六和李四也是父母关系,张三拥有性别属性为男,陈六拥有性别属性为女,可以通过这四条知识推导出张三和陈六是配偶关系。知识图谱的构建核心环节就是关系抽取。现有行业知识图谱的构建的方案主要有:一是至顶向下式,先创建基于本体的数据模式,利用高质量的结构化连接数据根据图映射得到关系三元组。这种方法可靠性较高,但是非常耗时耗力,且需要较强的领域知识作为支撑,一般数据规模无法做得很大。二是由底向上式,采用一定技术手段从公开数据集中实现关系抽取。公开数据集往往包含少量半结构化数据和大量非结构化数据,半结构化数据如表格、列表、字典、infobox等,通常采用装饰器(wrapper),根据数据呈现的形式编写规则来提取关系。而非结构化的纯文本中的关系往往呈现多种多样。比如下面四段文本都可以表示A和B的配偶关系:1、A与B结婚了。2、A娶了B。3、B嫁给A。4、C的爸爸妈妈A和B。四句话均体现了配偶关系,虽然有一些特性可循,但是很难单纯靠规则模式来处理。非结构化文本中关系往往和该句子的语义特征相关联。现有的方案中也有用规则模版来提取关系三元组的,这种方法的优点是比较准确可靠。但是缺点很明显,一是需要人工编写模版无法自动化,二是只能适配特定的句子模式。有方案基于规则抽取的基础上提出先进行人工规则学习,生成新的规则集,再用新的规则提取未分类的关系模式。此方案虽然能提高规则提取的能力,但是无法进行自动化的部署,规则学习的阶段需要不断介入人工审核,不是一个很好的解决方案。从非结构化的纯文本中抽取关系构建知识图谱,始终是一个棘手的难题。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种知识图谱的构建系统及方法。所述技术方案如下:第一方面,提供了一种知识图谱的构建系统,包括:爬虫模块,对文本进行爬虫以及数据清洗;基础标注模块,用于进行包括主语补全操作在内的基础标注工作;候选关系提取模块,用于提取包括候选关系句子和/或关系实体对的候选关系;特征提取模块,用于进行特征提取;关系分类器训练模块,用于根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;关系审核模块,用于对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。结合第一方面,在第一种可能的实现方式中,所述系统还包括:启发式规则库,用于设置关系提取的启发式规则;所述关系审核模块用于结合所述关系分类器获得的候选句子关系和所述启发式规则进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。结合第一方面的第一种可能实现方式,在第二种可能的实现方式中,所述系统还包括:日志分析模块,用于对原有日志进行挖掘,获得所述启发式规则;和/或根据所述关系审核模块审核确定的结果进行挖掘,更新所述启发式规则。结合第一方面以及第一方面的第一、二种可能实现方式,在第三至五种可能的实现方式中,所述系统还包括:特征权重更新模块,用于根据所述关系审核模块审核确定的结果对所述关系分类器进行权重更新。结合第一方面,在第六种可能的实现方式中,所述基础标注模块,用于进行包括分词、词性标注、命名实体识别、句法依存分析、主语补全操作的基础标注工作。结合第一方面,在第七种可能的实现方式中,所述特征提取模块,用于基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征。结合第一方面以及第一方面的第一、二、六、七种可能实现方式,在第八至十一种可能的实现方式中,所述主语补全操作包括:判断句子是否包含主语,若是,则判断主语是否是指代词,若是,则判断所述句子的上一句是否包含主语,若是,则判断所述主语是否是实体词,若是,则根据所述主语进行所述句子的主语补全;若否,则判断所述句子的上一句是否包含主语,若是,则判断所述主语是否是实体词,若是,则根据所述主语进行所述句子的主语补全。结合第一方面以及第一方面的第一、二、六、七种可能实现方式,在第十二至十五种可能的实现方式中,所述关系审核模块,通过利用投票机制和/或人工判决的方法进行候选关系审核确定。第二方面,一种知识图谱的构建方法,包括:对文本进行爬虫以及数据清洗:进行包括主语补全操作在内的基础标注工作;提取包括候选关系句子和/或关系实体对的候选关系;进行特征提取;根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。结合第二方面,在第一种可能的实现方式中,所述方法还包括:设置关系提取的启发式规则;所述对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整,包括:结合所述关系分类器获得的候选句子关系和所述启发式规则进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。结合第二方面的第一种可能实现方式,在第二种可能的实现方式中,所述方法还包括:对原有日志进行挖掘,获得所述启发式规则;和/或根据所述关系审核模块审核确定的结果进行挖掘,更新所述启发式规则。结合第二方面以及第二方面的第一、二种可能实现方式,在第三至五种可能的实现方式中,所述方法还包括:根据所述关系审核模块审核确定的结果对所述关系分类器进行权重更新。结合第二方面,在第六种可能的实现方式中,进行包括主语补全操作在内的基础标注工作,包括:进行分词、词性标注、命名实体识别、句法依存分析、主语补全操作的基础标注工作。结合第二方面,在第七种可能的实现本文档来自技高网
...

【技术保护点】
1.一种知识图谱的构建系统,其特征在于,包括:爬虫模块,对文本进行爬虫以及数据清洗;基础标注模块,用于进行包括主语补全操作在内的基础标注工作;候选关系提取模块,用于提取包括候选关系句子和/或关系实体对的候选关系;特征提取模块,用于进行特征提取;关系分类器训练模块,用于根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;关系审核模块,用于对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。

【技术特征摘要】
1.一种知识图谱的构建系统,其特征在于,包括:爬虫模块,对文本进行爬虫以及数据清洗;基础标注模块,用于进行包括主语补全操作在内的基础标注工作;候选关系提取模块,用于提取包括候选关系句子和/或关系实体对的候选关系;特征提取模块,用于进行特征提取;关系分类器训练模块,用于根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;关系审核模块,用于对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。2.根据权利要求1所述的系统,其特征在于,所述系统还包括:启发式规则库,用于设置关系提取的启发式规则;所述关系审核模块用于结合所述关系分类器获得的候选句子关系和所述启发式规则进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。3.根据权利要求2所述的系统,其特征在于,所述系统还包括:日志分析模块,用于对原有日志进行挖掘,获得所述启发式规则;和/或根据所述关系审核模块审核确定的结果进行挖掘,更新所述启发式规则。4.根据权利要求1至3任一项所述的系统,其特征在于,所述系统还包括:特征权重更新模块,用于根据所述关系审核模块审核确定的结果对所述关系分类器进行权重更新。5.根据权利要求1所述的系统,其特征在于,所述基础标注模块,用于进行包括分词、词性标注、命名实体识别、句法依存分析、主语补全操作的基础标注工作。6.根据权利要求1所述的系统,其特征在于,所述特征提取模块,用于基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征。7.根据权利要求1、2、3、5、6任一项所述的系统,其特征在于,所述主语补全操作包括:判断句子是否包含主语,若是,则判断主语是否是指代词,若是,则判断所述句子的上一句是否包含主语,若是,则判断所述主语是否是实体词,若是,则根据所述主语进行所述句子的主语补全;若否,则判断所述句子的上一句是否包含主语,若是,则判断所述主语是否是实体词,若是,则根据所述主语进行所述句子的主语补全。8.根据权利要求1、2、3、5、6任一项所述的系统,其特征在于,所述关系审核模块,通过利用投票机制和/或人工判决的...

【专利技术属性】
技术研发人员:李勇倪博溢周笑添
申请(专利权)人:众安信息技术服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1