基于bert算法模型的知识图谱构建方法技术

技术编号:24353621 阅读:27 留言:0更新日期:2020-06-03 02:06
本发明专利技术属于知识图谱技术领域,具体涉及一种基于bert算法模型的知识图谱构建方法。与现有技术相比较,本发明专利技术通过使用bert‑bilstm‑crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取;利用句法依存关系对关系提取,并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联,形成归零文档的知识体系和知识图谱。与现有技术相比,本发明专利技术提出的技术方案,实现了军工集团归零文档知识的体系化、结构化和知识化等,同时,基于bert‑bilstm‑crf中文命名识别算法模型,也保证了段落实体提取的快速性和精准性。

The construction method of knowledge map based on Bert algorithm model

【技术实现步骤摘要】
基于bert算法模型的知识图谱构建方法
本专利技术属于知识图谱
,具体涉及一种基于bert算法模型的知识图谱构建方法。
技术介绍
在军工集团,每年会产生大量的归零文档,但是现阶段只是将这些非结构化文档存储在磁盘或者知识库中,缺乏有效的处理手段对归零文档的知识进行进一步的处理,而利用知识图谱的方法可以将归零文档的知识体系化、结构化和知识化。常用的知识图谱实体提取方法包括:基于语义序列核方法、特征向量法、bilstm-crf中文命名识别方法等。语义序列核方法是结合中文文本的语义特征,利用七条启发规则来抽取实体;基于特征向量法是将实体抽取问题转化为实体分类问题,常用的特征包括:上下文特征、动词特征、距离特征等;基于bilstm-crf中文命名识别方法是一种端到端的过程,不依赖特征工程,是一种数据驱动方法。面对大量的非结构化文本,进行图谱实体提取时大多数算法都能提取文档中实体,但是都存在精确度低、速度慢、消耗人力的特点。其中,基于语义序列核方法,在构建规则的过程往往需要大量的语言学知识,不同的语言规则不尽相同,而且很难处理规则之间的冲突,同时构建规则的过程费时费力、可移植性不还;基于特征向量的实体提取方法适合于包含两个句子的关系抽取;基于bilstm-crf中文命名识别方法无法有效的增强字的语义和字的多义性、无法对文本上下文全向预测。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是:为了快速、精准处理大量、复杂、互连、多变的非结构化归零文档数据,如何形成知识图谱和知识体系,方便相关人员快速理解归零文档知识和全面的了解归零文档体系,为军工集团相关应用提供基础的数据支撑。(二)技术方案为解决上述技术问题,本专利技术提供一种基于bert算法模型的知识图谱构建方法,所述方法包括如下步骤:步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;步骤4:因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;步骤5:将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。其中,所述步骤3和步骤4之间,还包括:由于归零文档本身知识体系的不完善性,结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。其中,所述公开的领域词典包括来自清华的领域词典。其中,所述公开的领域词典包括来自百度的领域词典。其中,所述步骤5中,所述图数据库为neo4j图数据库。其中,所述步骤5中,所述图数据库为JanusGraph图数据库。(三)有益效果与现有技术相比较,本专利技术通过使用bert-bilstm-crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取;利用句法依存关系对关系提取,并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联,形成归零文档的知识体系和知识图谱。与现有技术相比,本专利技术提出的技术方案,实现了军工集团归零文档知识的体系化、结构化和知识化等,同时,基于bert-bilstm-crf中文命名识别算法模型,也保证了段落实体提取的快速性和精准性。附图说明图1为基于bert算法模型的知识图谱构建流程图。具体实施方式为使本专利技术的目的、内容、和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。为解决现有技术问题,本专利技术提供一种基于bert算法模型的知识图谱构建方法,如图1所示,所述方法包括如下步骤:步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;步骤4:在处理归零文档的时候发现,不同归零文档实体之间存在上下位关系、同意关系、反义关系、关联关系等,因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;步骤5:将最终生成的整体归零文档知识图谱三元组存储在neo4j、JanusGraph等图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。由于归零文档的实体和关系没有完整的属性知识支撑,所以通过爬虫和人工手动录入填报的方式对实体和关系的属性进行补充和完善。其中,所述步骤3和步骤4之间,还包括:由于归零文档本身知识体系的不完善性,结合归零文档和公开(清华、百度)的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。其中,所述公开的领域词典包括来自清华的领域词典。其中,所述公开的领域词典包括来自百度的领域词典。其中,所述步骤5中,所述图数据库为neo4j图数据库。其中,所述步骤5中,所述图数据库为JanusGraph图数据库。以上所述仅是本专利技术的优选实施方式,应当指出,对于本
的普通技术人员来说,在不脱离本专利技术技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本专利技术的保护范围。本文档来自技高网
...

【技术保护点】
1.一种基于bert算法模型的知识图谱构建方法,其特征在于,所述方法包括如下步骤:/n步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;/n步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;/n步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;/n步骤4:因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;/n步骤5:将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。/n

【技术特征摘要】
1.一种基于bert算法模型的知识图谱构建方法,其特征在于,所述方法包括如下步骤:
步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
步骤4:因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
步骤5:将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相...

【专利技术属性】
技术研发人员:牛志超南海涛刘林马语菡王俊费廷伟刘戎徐永伟高晓琼
申请(专利权)人:北京京航计算通讯研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1