煤矿安全生产领域的知识图谱构建方法及系统技术方案

技术编号:38999514 阅读:8 留言:0更新日期:2023-10-07 10:31
本发明专利技术提供的一种煤矿安全生产领域知识图谱构建方法及系统,该方法包括根据煤矿安全生产领域文档特征构建本体结构,本体结构包括文本本体结构、图片本体结构和表格本体结构;根据文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;根据图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;根据表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;根据上述信息构建煤矿安全生产领域知识图谱。实现了自动获取煤矿安全生产领域文档的实体、实体属性及实体之间的隶属关系,尤其是表格实体和图片实体,提高了构建知识图谱的效率和准确性。和准确性。和准确性。

【技术实现步骤摘要】
煤矿安全生产领域的知识图谱构建方法及系统


[0001]本专利技术涉及煤矿知识图谱领域,尤其涉及一种煤矿安全生产领域知识图谱构建方法及系统。

技术介绍

[0002]随着社会由纸质化办公向电子化办公的转变,在煤矿安全生产领域,需要以电子文档形式记录的情况也日益增多,对数据的处理变得越来越重要,当数据量非常大的时候,分析和检索的工作量就会变得非常大,目前主要通过构建知识图谱对煤矿安全生产领域文档进行检索分析,但是由于煤矿安全生产领域文档中存在大量有意义的表格以及图片。为更清楚明了地展示设备操作规范、设备参数等信息,此领域文档中会补充大量的表格和图片进行说明。例如“牵引机构的传动系统参数”“冷却水管组件”“摇臂外形图”等,与常规文档不同,表格和图片信息是实质信息,对于文档起到的大多不是简单的补充解释作用,所以煤矿安全生产领域文档中的表格和图片对知识理解有很大意义。而现有知识图谱构建方法中,不能实现从文档中自动获取实体,尤其是图片实体和表格实体,导致煤矿安全生产领域的实体与实体关系存在遗漏,并且,该行业领域缺少历史标注数据,因此,需要通过人工标注提取煤矿安全生产领域文档中实体、实体属性及实体之间的隶属关系,再导入软件生成知识图谱,人工标注耗费时间和人力,且存在不可控的失误,导致构建知识图谱效率低且准确性低。

技术实现思路

[0003]本专利技术提供一种针对煤矿安全生产领域文档的知识图谱构建方法及系统,用以解决现有技术中无法自动获取文档实体,尤其是表格实体和图片实体,且人工标注耗费时间和人力,并存在不可控的失误,导致构建知识图谱效率低且准确性低的缺陷。
[0004]本专利技术提供一种煤矿安全生产领域知识图谱构建方法,包括:根据煤矿安全生产领域文档特征构建本体结构,所述本体结构包括文本本体结构、图片本体结构和表格本体结构;根据所述文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;根据所述图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;根据所述表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;根据所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱。
[0005]根据本专利技术提供的一种煤矿安全生产领域知识图谱构建方法,所述根据所述文本
本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系,包括:通过python中docx库识别所述煤矿安全生产领域文档的大纲层级结构,根据所述大纲层级结构得到所述煤矿安全生产领域文档中文本的一级标题实体、二级标题实体、三级标题实体、三级标题的段落内容实体及实体之间的隶属关系;基于所述三级标题的段落内容实体提取段落关键词,得到所述段落内容的关键词实体,并根据所述文本本体结构得到所述段落内容关键词对应的段落内容的标签属性;将煤矿安全生产领域文档转换成PDF文件,对PDF文件每页进行文本对比,得到段落文本内容的属性页码。
[0006]根据本专利技术提供的一种煤矿安全生产领域知识图谱构建方法,所述基于所述三级标题的段落内容实体提取段落关键词,得到所述段落内容的关键词实体,包括:建立煤矿安全生产领域词库;基于煤矿安全生产领域词库,基于TFIDF文本分析算法提取所述三级标题的段落内容的段落关键词及每个关键词的权重;通过预设词库过滤关键词,得到名词及名词短语词性的关键词;从所述名词及名词短语词性的关键词中选择所述权重排名靠前的预设数量关键词作为段落关键词;获取段落所属的一级标题、二级标题、三级标题关键词,并将所述一级标题、二级标题、三级标题关键词合并到所述段落关键词,得到段落内容的关键词实体。
[0007]根据本专利技术提供的一种煤矿安全生产领域知识图谱构建方法,所述根据所述图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系,包括:将所述煤矿安全生产领域文档中的图片标题输入python程序中re模块,通过编写re表达式提取图片标题实体及与所属三级标题实体的隶属关系;对段落元素xpath解析是否存在图片元素,当存在图片元素时,将图片内容保存到对应文件路径,得到图片内容实体及图片标题实体的图片内容属性。
[0008]根据本专利技术提供的一种煤矿安全生产领域知识图谱构建方法,所述根据所述表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系,包括:将所述煤矿安全生产领域文档中的表格标题输入python程序中re模块,通过编写re表达式提取表格标题实体及与所属三级标题实体的隶属关系;通过python中的docx库对所述煤矿安全生产领域文档中的表格进行提取,按照表格标题进行命名并保存到对应文件路径,得到表格内容实体及表格标题实体的表格内容属性。
[0009]根据本专利技术提供的一种煤矿安全生产领域知识图谱构建方法,所述通过python中的docx库对所述煤矿安全生产领域文档中的表格进行提取,包括:通过python中的docx库对所述煤矿安全生产领域文档中的表格进行统一提取,得到所述煤矿安全生产领域文档中的所有表格;对提取后的每个表格第一行的序号和名称行判断是否为空;
若不为空,则将当前表格作为提取到的表格;若为空,则将当前表格与上一个表格进行拼接,并去除空白行得到提取到的表格。
[0010]根据本专利技术提供的一种煤矿安全生产领域知识图谱构建方法,所述根据所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱,包括:将所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系,导入关系数据库,生成实体表、属性表及关系表;将所述实体表、属性表及关系表输入图形数据库进行图形转化,得到所述煤矿安全生产领域的知识图谱。
[0011]本专利技术还提供一种煤矿安全生产领域知识图谱构建系统,包括:构建模块,用于根据煤矿安全生产领域文档特征构建本体结构,所述本体结构包括文本本体结构、图片本体结构和表格本体结构;文本模块,用于根据所述文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;图片模块,用于根据所述图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;表格模块,用于根据所述表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;建图模块,用于根据所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱。
[0012]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述煤矿安全生产领域知识图谱构建方法。...

【技术保护点】

【技术特征摘要】
1.一种煤矿安全生产领域知识图谱构建方法,其特征在于,包括:根据煤矿安全生产领域文档特征构建本体结构,所述本体结构包括文本本体结构、图片本体结构和表格本体结构;根据所述文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;根据所述图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;根据所述表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;根据所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱。2.根据权利要求1所述的一种煤矿安全生产领域知识图谱构建方法,其特征在于,所述根据所述文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系,包括:通过python中docx库识别所述煤矿安全生产领域文档的大纲层级结构,根据所述大纲层级结构得到所述煤矿安全生产领域文档中文本的一级标题实体、二级标题实体、三级标题实体、三级标题的段落内容实体及实体之间的隶属关系;基于所述三级标题的段落内容实体提取段落关键词,得到所述段落内容的关键词实体,并根据所述文本本体结构得到所述段落内容关键词对应的段落内容的标签属性;将煤矿安全生产领域文档转换成PDF文件,对PDF文件每页进行文本对比,得到段落文本内容的属性页码。3.根据权利要求2所述的一种煤矿安全生产领域知识图谱构建方法,其特征在于,所述基于所述三级标题的段落内容实体提取段落关键词,得到所述段落内容的关键词实体,包括:建立煤矿安全生产领域词库;基于煤矿安全生产领域词库,基于TFIDF文本分析算法提取所述三级标题的段落内容的段落关键词及每个关键词的权重;通过预设词库过滤关键词,得到名词及名词短语词性的关键词;从所述名词及名词短语词性的关键词中选择所述权重排名靠前的预设数量关键词作为段落关键词;获取段落所属的一级标题、二级标题、三级标题关键词,并将所述一级标题、二级标题、三级标题关键词合并到所述段落关键词,得到段落内容的关键词实体。4.根据权利要求1所述的一种煤矿安全生产领域知识图谱构建方法,其特征在于,所述根据所述图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系,包括:将所述煤矿安全生产领域文档中的图片标题输入python程序中re模块,通过编写re表达式提取图片标题实体及与所属三级标题实体的隶属关系;对段落元素xpath解析是否存在图片元素,当存在图片元素时,将图片内容保存到对应
文件路径,得到图片内容实体及图片标题实体的图片内容属性。5.根据权利要求1所述的一种煤矿安全生产领域知识图谱构建方法,其特征在于,所述根据所述表格本体结构获取煤矿安...

【专利技术属性】
技术研发人员:王兆辉李征仁
申请(专利权)人:北京华琦远航国际咨询有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1