一种知识图谱的构建系统及方法技术方案

技术编号：19544079 阅读：1349 留言：0更新日期：2018-11-24 20:40

本发明专利技术公开了一种知识图谱的构建系统及方法，属于自然语言处理、计算机信息处理技术领域。所述系统包括：爬虫模块，对文本进行爬虫以及数据清洗；基础标注模块，用于进行包括主语补全操作在内的基础标注工作；候选关系提取模块，用于提取包括候选关系句子和/或关系实体对的候选关系；特征提取模块，用于进行特征提取；关系分类器训练模块，用于根据候选关系提取结果和特征提取结果进行模型训练，构建关系分类器；关系审核模块，用于对所述关系分类器获得的候选句子关系进行审核确定，根据审核确定的结果对所述关系分类器进行相应调整。本发明专利技术实现了更强的关系抽取能力，减少了人工参与的成本，提高了构建知识图谱的效率。

A Knowledge Map Construction System and Method

The invention discloses a knowledge atlas construction system and method, which belongs to the technical field of natural language processing and computer information processing. The system includes: crawler module, crawler for text and data cleaning; basic annotation module, which is used for basic annotation including subject completion operation; candidate relationship extraction module, which is used to extract candidate relationships including candidate relationship sentences and/or relational entity pairs; feature extraction module, which is used for improvement. Line feature extraction; relational classifier training module, which is used to train the model according to the results of candidate relation extraction and feature extraction, and construct relational classifier; relational auditing module, which is used to verify and determine the candidate sentence relationships obtained by the relational classifier, and classify the relationships according to the results of auditing. The device is adjusted accordingly. The invention realizes stronger relationship extraction ability, reduces the cost of manual participation, and improves the efficiency of constructing knowledge map.

全部详细技术资料下载

【技术实现步骤摘要】
一种知识图谱的构建系统及方法
本专利技术涉及自然语言处理、计算机信息处理
，特别涉及一种知识图谱的构建系统及方法。
技术介绍
知识图谱是一种以自然语言处理(NLP)为中心，结合应用数学、图形学、信息可视化的多种技术的知识组织形式和规范。近来知识图谱在人工智能很多行业拥有成熟的应用，如搜索引擎、聊天机器人、智能医疗、智能硬件等。知识图谱分为行业知识图谱和通用知识图谱，2012年谷歌提出通用知识图谱的概念。通用知识图谱强调广度，很难生成全局性本体层统一管理。常见通用知识图谱包括：Freebase、DBpedia、zhishi.me等。行业知识图谱是基于特定领域，应对不同的业务场景，具有一定深度和完备性的知识库系统。当然通用知识图谱和行业知识图谱并不是相互对立，而是相互互补的一个关系，利用通用的知识图谱的广度结合行业知识图谱的深度，可以形成更加完善的知识图谱。知识图谱是关系的一种有效的表现方式，把不同种类的信息连接在一起得到一个关系网络。通过知识图谱，利用关系推导实现语义理解和推理。关系的基本表现形式为三元组如：<node,relation,node>，可本文档来自技高网...

【技术保护点】
1.一种知识图谱的构建系统，其特征在于，包括：爬虫模块，对文本进行爬虫以及数据清洗；基础标注模块，用于进行包括主语补全操作在内的基础标注工作；候选关系提取模块，用于提取包括候选关系句子和/或关系实体对的候选关系；特征提取模块，用于进行特征提取；关系分类器训练模块，用于根据候选关系提取结果和特征提取结果进行模型训练，构建关系分类器；关系审核模块，用于对所述关系分类器获得的候选句子关系进行审核确定，根据审核确定的结果对所述关系分类器进行相应调整。

【技术特征摘要】
1.一种知识图谱的构建系统，其特征在于，包括：爬虫模块，对文本进行爬虫以及数据清洗；基础标注模块，用于进行包括主语补全操作在内的基础标注工作；候选关系提取模块，用于提取包括候选关系句子和/或关系实体对的候选关系；特征提取模块，用于进行特征提取；关系分类器训练模块，用于根据候选关系提取结果和特征提取结果进行模型训练，构建关系分类器；关系审核模块，用于对所述关系分类器获得的候选句子关系进行审核确定，根据审核确定的结果对所述关系分类器进行相应调整。2.根据权利要求1所述的系统，其特征在于，所述系统还包括：启发式规则库，用于设置关系提取的启发式规则；所述关系审核模块用于结合所述关系分类器获得的候选句子关系和所述启发式规则进行审核确定，根据审核确定的结果对所述关系分类器进行相应调整。3.根据权利要求2所述的系统，其特征在于，所述系统还包括：日志分析模块，用于对原有日志进行挖掘，获得所述启发式规则；和/或根据所述关系审核模块审核确定的结果进行挖掘，更新所述启发式规则。4.根据权利要求1至3任一项所述的系统，其特征在于，所述系统还包括：特征权重更新模块，用于根据所述关系审核模块审核确定的结果对所述关系分类器进行权重更新。5.根据权利要求1所述的系统，其特征在于，所述基础标注模块，用于进行包括分词、词性标注、命名实体识别、句法依存分析、主语补全操作的基础标注工作。6.根据权利要求1所述的系统，其特征在于，所述特征提取模块，用于基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征。7.根据权利要求1、2、3、5、6任一项所述的系统，其特征在于，所述主语补全操作包括：判断句子是否包含主语，若是，则判断主语是否是指代词，若是，则判断所述句子的上一句是否包含主语，若是，则判断所述主语是否是实体词，若是，则根据所述主语进行所述句子的主语补全；若否，则判断所述句子的上一句是否包含主语，若是，则判断所述主语是否是实体词，若是，则根据所述主语进行所述句子的主语补全。8.根据权利要求1、2、3、5、6任一项所述的系统，其特征在于，所述关系审核模块，通过利用投票机制和/或人工判决的...

【专利技术属性】
技术研发人员：李勇，倪博溢，周笑添，
申请(专利权)人：众安信息技术服务有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人