一种知识图谱构建方法、装置、设备及其存储介质制造方法及图纸

技术编号:37624042 阅读:10 留言:0更新日期:2023-05-18 12:15
本申请实施例属于数据分析技术领域,涉及一种知识图谱构建方法、装置、设备及其存储介质,包括逐行扫描待进行知识图谱构建的目标文本内容;传输到预设的命名实体识别模型中进行层级划分,识别所有命名实体;对命名实体进行标注和清洗,仅保留带有标注的所有命名实体;基于预设的知识图谱构建模型,将所述携带有标注的所有命名实体以神经网络连接结构展示到预设的可视化界面,完成对目标文本内容的知识图谱构建。通过对命名实体进行识别和层级归纳,根据层级归纳结果,构建出立体化的神经网络连接结构的知识图谱,更加智能化,一定程度上解决了知识图谱构建的局限性。而且,也更加方便相关人员利于知识图谱进行数据查找和分析。析。析。

【技术实现步骤摘要】
一种知识图谱构建方法、装置、设备及其存储介质


[0001]本申请涉及数据分析
,尤其涉及一种知识图谱构建方法、装置、设备及其存储介质。

技术介绍

[0002]知识图谱是描述真实世界中存在的各种实体和概念,以及他们之间的关系,是一种语义网络。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,在智能搜索、文本分析、阅读理解、异常监控等场景,达到真正的智能和自动。
[0003]传统的知识图谱方式,主要是预先设置关键词,通过关键词构建知识图谱,但是,这种方式要求必须对待构建知识图谱的内容有一定的先见理解,一旦无法预先获得关键词,将导致无法合理构建知识图谱。因此,现有技术进行知识图谱构建时,不够智能化,还存在一定局限性的问题。

技术实现思路

[0004]本申请实施例的目的在于提出一种知识图谱构建方法、装置、设备及其存储介质,以解决现有技术进行知识图谱构建时,不够智能化,还存在一定局限性的问题。
[0005]为了解决上述技术问题,本申请实施例提供知识图谱构建方法,采用了如下所述的技术方案:
[0006]一种知识图谱构建方法,包括下述步骤:
[0007]逐行扫描待进行知识图谱构建的目标文本内容,获取第一文本;
[0008]传输所述第一文本到预设的命名实体识别模型中;
[0009]通过所述命名实体识别模型,对所述第一文本进行命名实体识别和层级划分,获得第二文本;
[0010]根据预设的标注模型,对所述第二文本中所有命名实体进行标注,获得带有标注的第二文本;
[0011]清洗所述带有标注的第二文本,获取所述第二文本中携带有标注的所有命名实体;
[0012]基于预设的知识图谱构建模型,将所述携带有标注的所有命名实体以神经网络连接结构展示到预设的可视化界面,完成对目标文本内容的知识图谱构建。
[0013]进一步的,所述逐行扫描待进行知识图谱构建的目标文本内容,获取第一文本的步骤,具体包括:
[0014]若所述目标文本内容以纸质件为载体,则通过预设的实体扫描设备进行逐行扫描,获取逐行映射结果;
[0015]若所述目标文本内容以电子文档为载体,则通过电子扫描形式进行逐行扫描,获取逐行映射结果;
[0016]通过预设监测组件,监测到无法获取新的逐行映射结果,则扫描结束,获取所有的逐行映射结果作为所述第一文本。
[0017]进一步的,在执行所述传输所述第一文本到预设的命名实体识别模型中的步骤之前,所述方法还包括:
[0018]统计当前逐行映射结果内的字符总数量;
[0019]判断所述当前逐行映射结果内的字符总数量是否等于预设的行内字符最大数量,其中,所述预设的行内字符最大数量为所述目标文本内容中同一行所容纳的最大字符数量;
[0020]若不等于,则在所述当前逐行映射结果的末尾设置分段符号;
[0021]若等于,且所述当前逐行映射结果的末尾为字符,则在所述当前逐行映射结果的末尾设置分行符号;
[0022]若等于,且所述当前逐行映射结果的末尾为符号,则转人工处理,并获取人工设置的分段符号或分行符号;
[0023]统计所述当前逐行映射结果中的所有分段符号和分行符号,根据统计的分段符号和分行符号,对所述第一文本进行分段分行处理,获取分段分行处理结果;
[0024]所述传输所述第一文本到预设的命名实体识别模型中的步骤,具体包括:
[0025]将所述分段分行处理结果传输到所述命名实体识别模型中。
[0026]进一步的,所述命名实体识别模型包括文本识别子模型和层级归纳子模型,所述通过所述命名实体识别模型,对所述第一文本进行命名实体识别和层级划分,获得第二文本的步骤,具体包括:
[0027]通过所述文本识别子模型,识别所述第一文本中所有命名实体;
[0028]根据所述层级归纳子模型和所述第一文本中所有命名实体,对所述第一文本进行层级划分,获得所述第二文本。
[0029]进一步的,所述根据所述层级归纳子模型和所述第一文本中所有命名实体,对所述第一文本进行层级划分,获得所述第二文本的步骤,具体包括:
[0030]将所述第一文本中所有命名实体传输至所述层级归纳子模型,对所述第一文本中所有命名实体进行层级归纳,获取层级归纳结果;
[0031]识别所述第一文本中所有命名实体分别在所述第一文本中的位置信息,其中,所述位置信息包括段落编号和段内行编号;
[0032]根据所述第一文本中所有命名实体对应的层级归纳结果和所述第一文本中所有命名实体分别在所述第一文本中的位置信息,对所述第一文本进行层级划分;
[0033]将经层级划分后的第一文本作为所述第二文本。
[0034]进一步的,在执行所述根据预设的标注模型,对所述第二文本中所有命名实体进行标注的步骤之前,所述方法还包括:
[0035]根据所述层级归纳结果,统计所述第二文本中所有命名实体的最大归纳层级数;
[0036]基于所述最大归纳层级数设置不同的标注颜色,其中,所述标注颜色的区别色彩个数与所述最大归纳层级数相同;
[0037]所述根据预设的标注模型,对所述第二文本中所有命名实体进行标注的步骤,具体包括:
[0038]识别所述第二文本中所有命名实体分别在所述第二文本中的位置信息;
[0039]根据所述第二文本中所有命名实体分别在所述第二文本中的位置信息,识别出所述第二文本中所有命名实体;
[0040]选用不同标注颜色,对所述第二文本中所有命名实体进行区别色彩标注,具体的,对同一归纳层级的命名实体采用同一区别色彩进行标注,对不同归纳层级的命名实体采用不同区别色彩标注。
[0041]进一步的,在执行所述基于预设的知识图谱构建模型,将所述携带有标注的所有命名实体以神经网络连接结构展示到预设的可视化界面的步骤之前,所述方法还包括:
[0042]基于对所述第一文本进行分段分行处理所获得的分段分行处理结果,识别所述第二文本中各个段落的段落编号;
[0043]根据所述第二文本中各个段落的段落编号,对所述带有标注的所有命名实体进行逐段拆分处理;
[0044]将拆分处理后带有标注的所有命名实体,按照段落编号顺序,以多层形式展示在所述可视化界面;
[0045]所述基于预设的知识图谱构建模型,将所述携带有标注的所有命名实体以神经网络连接结构展示到预设的可视化界面的步骤,具体包括:
[0046]根据所述第二文本中所有命名实体的层级归纳结果,对所述以多层形式展示在所述可视化界面内的带有标注的所有命名实体进行箭头指引连线处理,其中,所述箭头指引连线处理遵循所述层级归纳结果,并以高层级作为箭头出发位置,以下一低层级作为箭头指向位置,进行箭头指引连线;
[0047]获取箭头指引连线处理结果,得到所述带有标注的所有命名实体对应的神经网络连接结构;
[0048]将所述神本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,包括下述步骤:逐行扫描待进行知识图谱构建的目标文本内容,获取第一文本;传输所述第一文本到预设的命名实体识别模型中;通过所述命名实体识别模型,对所述第一文本进行命名实体识别和层级划分,获得第二文本;根据预设的标注模型,对所述第二文本中所有命名实体进行标注,获得带有标注的第二文本;清洗所述带有标注的第二文本,获取所述第二文本中携带有标注的所有命名实体;基于预设的知识图谱构建模型,将所述携带有标注的所有命名实体以神经网络连接结构展示到预设的可视化界面,完成对目标文本内容的知识图谱构建。2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述逐行扫描待进行知识图谱构建的目标文本内容,获取第一文本的步骤,具体包括:若所述目标文本内容以纸质件为载体,则通过预设的实体扫描设备进行逐行扫描,获取逐行映射结果;若所述目标文本内容以电子文档为载体,则通过电子扫描形式进行逐行扫描,获取逐行映射结果;通过预设监测组件,监测到无法获取新的逐行映射结果,则扫描结束,获取所有的逐行映射结果作为所述第一文本。3.根据权利要求2所述的知识图谱构建方法,其特征在于,在执行所述传输所述第一文本到预设的命名实体识别模型中的步骤之前,所述方法还包括:统计当前逐行映射结果内的字符总数量;判断所述当前逐行映射结果内的字符总数量是否等于预设的行内字符最大数量,其中,所述预设的行内字符最大数量为所述目标文本内容中同一行所容纳的最大字符数量;若不等于,则在所述当前逐行映射结果的末尾设置分段符号;若等于,且所述当前逐行映射结果的末尾为字符,则在所述当前逐行映射结果的末尾设置分行符号;若等于,且所述当前逐行映射结果的末尾为符号,则转人工处理,并获取人工设置的分段符号或分行符号;统计所述当前逐行映射结果中的所有分段符号和分行符号,根据统计的分段符号和分行符号,对所述第一文本进行分段分行处理,获取分段分行处理结果;所述传输所述第一文本到预设的命名实体识别模型中的步骤,具体包括:将所述分段分行处理结果传输到所述命名实体识别模型中。4.根据权利要求1所述的知识图谱构建方法,其特征在于,所述命名实体识别模型包括文本识别子模型和层级归纳子模型,所述通过所述命名实体识别模型,对所述第一文本进行命名实体识别和层级划分,获得第二文本的步骤,具体包括:通过所述文本识别子模型,识别所述第一文本中所有命名实体;根据所述层级归纳子模型和所述第一文本中所有命名实体,对所述第一文本进行层级划分,获得所述第二文本。5.根据权利要求4所述的知识图谱构建方法,其特征在于,所述根据所述层级归纳子模
型和所述第一文本中所有命名实体,对所述第一文本进行层级划分,获得所述第二文本的步骤,具体包括:将所述第一文本中所有命名实体传输至所述层级归纳子模型,对所述第一文本中所有命名实体进行层级归纳,获取层级归纳结果;识别所述第一文本中所有命名实体分别在所述第一文本中的位置信息,其中,所述位置信息包括段落编号和段内行编号;根据所述第一文本中所有命名实体对应的层级归纳结果和所述第一文本中所有命名实体分别在所述第一文本中的位置信息,对所述第一文本进行层级划分;将经层级划分后的第一文本作为所述第二文本...

【专利技术属性】
技术研发人员:陈文旋吴士泓曹笑竹甘小芳徐静周饶
申请(专利权)人:远光软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1