一种知识图谱构建方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37600923 阅读:16 留言:0更新日期:2023-05-18 11:51
本发明专利技术提供了一种知识图谱构建方法、装置、电子设备及计算机可读存储介质。本发明专利技术提供的知识图谱构建方法,包括:获取待处理影像材料,对待处理影像材料进行识别,得到待处理影像材料的文本切片,将文本切片的文本、文本对应的坐标以及待处理影像材料输入至训练完备的第一多模态模型中,得到文本对应的序列标注结果;根据文本对应的序列标注结果以及训练完备的第二多模态模型,得到第一文本关系分类;根据包含第一文本关系分类的文本以及训练完备的关系抽取模型,得到文本主实体、文本客体以及第二文本关系分类;根据文本主实体、文本客体以及第二文本关系分类构建知识图谱。本发明专利技术的知识图谱构建方法,可以实现对保险影像材料的知识图谱构建。材料的知识图谱构建。材料的知识图谱构建。

【技术实现步骤摘要】
一种知识图谱构建方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种知识图谱构建方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]在人工智能的时代,传统的数据处理方法已不能满足人类对于信息整合和知识获取的要求。作为人工智能的重要基础之一的知识图谱技术,因具有强大的语义信息处理能力以及支持知识推理和分析的能力,近年来获得了广泛关注。
[0003]很多应用场景中都存在着丰富的业务知识,例如,在保险场景,其丰富的业务知识主要蕴藏于用户上传的理赔、核保的影像材料中,这些宝贵的业务知识只作用于对应的核保和理赔案件,没有被结构化保存,通过知识图谱技术可以结构化这些业务知识,使得结构化后的业务知识可以成为企业产品设计、风险控制等应用的重要参考数据。现有的缺少关于保险影像材料的知识图谱构建方案。

技术实现思路

[0004]本专利技术的目的在于提供一种知识图谱构建方法、装置、电子设备及计算机可读存储介质,以解决现有技术中缺少关于保险影像材料的知识图谱构建方案的技术问题。
[0005]本专利技术的技术方案如下,提供了一种知识图谱构建方法,包括:
[0006]获取待处理影像材料,对所述待处理影像材料进行识别,得到所述待处理影像材料的文本切片,将所述文本切片的文本、所述文本对应的坐标以及所述待处理影像材料输入至训练完备的第一多模态模型中,得到所述文本对应的序列标注结果;
[0007]根据所述文本对应的序列标注结果以及训练完备的第二多模态模型,得到第一文本关系分类;
[0008]根据包含所述第一文本关系分类的文本以及训练完备的关系抽取模型,得到文本主实体、文本客体以及第二文本关系分类;
[0009]根据所述文本主实体、所述文本客体以及所述第二文本关系分类构建知识图谱。
[0010]进一步地,所述第一多模态模型的训练过程,包括:
[0011]将文本样本、所述文本样本对应的坐标以及第一影像材料样本作为第一预设多模态预训练模型的输入,将所述第一预设多模态预训练模型的输出文本作为线性层的输入,将所述线性层输出的表征作为CRF层的输入,所述CRF层输出所述文本样本对应的BIO序列标注结果。
[0012]进一步地,所述文本对应的序列标注结果包括BIO序列标注后的文本,相应的,根据所述文本对应的序列标注结果以及训练完备的第二多模态模型,得到第一文本关系分类,包括:
[0013]将所述BIO序列标注后的文本、所述BIO序列标注后的文本对应坐标以及所述BIO序列标注后的文本所在的影像材料,输入至训练完备的第二多模态模型,输出关系分类结
果,根据所述关系分类结果得到第一文本关系分类。
[0014]进一步地,所述第二多模态模型的训练过程,包括:
[0015]将BIO序列标注后的文本样本、所述BIO序列标注后的文本样本对应坐标以及第二影像材料样本作为第二预设多模态预训练模型的输入,使所述第二预设多模态预训练模型输出文本字符的表示向量,将两个待分类关系实体中的第一字符的表示向量,分别经过线性层变换,得到变换后的表征,将所述变换后的表征作为Biaffine层的输入,所述Biaffine层输出关系分类结果。
[0016]进一步地,根据包含所述第一文本关系分类的文本以及训练完备的关系抽取模型,得到文本主实体、文本客体以及第二文本关系分类,包括:
[0017]对所述包含所述第一文本关系分类的文本中键实体进行模糊匹配,得到经模糊匹配后的文本,将所述经模糊匹配后的文本输入至所述训练完备的关系抽取模型中,得到文本主实体、文本客体以及第二文本关系分类。
[0018]进一步地,在根据包含所述第一文本关系分类的文本以及训练完备的关系抽取模型,得到文本主实体、文本客体以及第二文本关系分类之前,还包括,根据BERT文本表示层、主实体抽取层、客体抽取与关系分类层构建关系抽取模型,以Conditional LayerNormalization网络结构作为所述关系抽取模型的残差连接方式;
[0019]所述关系抽取模型的训练过程,包括:
[0020]以包含所述第一文本关系分类的文本样本作为所述关系抽取模型输入,对应的文本主实体、文本客体以及第二文本关系分类作为所述关系抽取模型的输出;以方向传播算法进行模型训练,以降低文本主实体和文本客体的联合损失函数的值作为模型训练的目标,当大于或者等于预设训练次数,联合损失函数的值没有降低时,停止训练,得到训练完备的关系抽取模型。
[0021]进一步地,根据所述文本主实体、所述文本客体以及所述第二文本关系分类构建知识图谱,包括:
[0022]将所述文本主实体、所述文本客体以及所述第二文本关系分类作为待标准化文本,将所述待标准化文本输入至训练完备的相似文本检索模型中,输出实体名称标准化后的文本,根据实体名称标准化后的文本,构建知识图谱;
[0023]其中,所述相似文本检索模型的训练过程包括,以所述待标准化文本的样本以及所述待标准化文本的样本对应的码库标准名,形成训练数据集,以所述训练数据集对所述BERT模型进行训练,以训练后的BERT模型表示所述对应的码库标准名,生成表示向量,根据所述表示向量生成faiss索引文件,以得到相似文本检索模型。
[0024]本专利技术的另一技术方案如下,还提供了一种知识图谱构建装置,包括数据预处理模块、第一关系分类模块、第二关系分类模块以及图谱构建模块;
[0025]所述数据预处理模块,用于获取待处理影像材料,对所述待处理影像材料进行识别,得到所述待处理影像材料的文本切片,将所述文本切片的文本、所述文本对应的坐标以及所述待处理影像材料输入至训练完备的第一多模态模型中,得到所述文本对应的序列标注结果;
[0026]所述第一关系分类模块,用于根据所述文本对应的序列标注结果以及训练完备的第二多模态模型,得到第一文本关系分类;
[0027]所述第二关系分类模块,用于根据包含所述第一文本关系分类的文本以及训练完备的关系抽取模型,得到文本主实体、文本客体以及第二文本关系分类;
[0028]所述图谱构建模块,用于根据所述文本主实体、所述文本客体以及所述第二文本关系分类构建知识图谱。
[0029]本专利技术的另一技术方案如下,还提供了一种电子设备,包括存储器、处理器,所述存储器存储有可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项技术方案所述的知识图谱构建方法。
[0030]本专利技术的另一技术方案如下,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项技术方案所述的知识图谱构建方法。
[0031]本专利技术的有益效果在于:获取待处理影像材料,对所述待处理影像材料进行识别,得到所述待处理影像材料的文本切片,将所述文本切片的文本、所述文本对应的坐标以及所述待处理影像材料输入至训练完备的第一多模态模型中,得到所述文本对应的序列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,包括如下步骤:获取待处理影像材料,对所述待处理影像材料进行识别,得到所述待处理影像材料的文本切片,将所述文本切片的文本、所述文本对应的坐标以及所述待处理影像材料输入至训练完备的第一多模态模型中,得到所述文本对应的序列标注结果;根据所述文本对应的序列标注结果以及训练完备的第二多模态模型,得到第一文本关系分类;根据包含所述第一文本关系分类的文本以及训练完备的关系抽取模型,得到文本主实体、文本客体以及第二文本关系分类;根据所述文本主实体、所述文本客体以及所述第二文本关系分类构建知识图谱。2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述第一多模态模型的训练过程,包括:将文本样本、所述文本样本对应的坐标以及第一影像材料样本作为第一预设多模态预训练模型的输入,将所述第一预设多模态预训练模型的输出文本作为线性层的输入,将所述线性层输出的表征作为CRF层的输入,所述CRF层输出所述文本样本对应的BIO序列标注结果。3.根据权利要求2所述的知识图谱构建方法,其特征在于,所述文本对应的序列标注结果包括BIO序列标注后的文本,相应的,根据所述文本对应的序列标注结果以及训练完备的第二多模态模型,得到第一文本关系分类,包括:将所述BIO序列标注后的文本、所述BIO序列标注后的文本对应坐标以及所述BIO序列标注后的文本所在的影像材料,输入至训练完备的第二多模态模型,输出关系分类结果,根据所述关系分类结果得到第一文本关系分类。4.根据权利要求3所述的知识图谱构建方法,其特征在于,所述第二多模态模型的训练过程,包括:将BIO序列标注后的文本样本、所述BIO序列标注后的文本样本对应坐标以及第二影像材料样本作为第二预设多模态预训练模型的输入,使所述第二预设多模态预训练模型输出文本字符的表示向量,将两个待分类关系实体中的第一字符的表示向量,分别经过线性层变换,得到变换后的表征,将所述变换后的表征作为Biaffine层的输入,所述Biaffine层输出关系分类结果。5.根据权利要求1所述的知识图谱构建方法,其特征在于,根据包含所述第一文本关系分类的文本以及训练完备的关系抽取模型,得到文本主实体、文本客体以及第二文本关系分类,包括:对所述包含所述第一文本关系分类的文本中键实体进行模糊匹配,得到经模糊匹配后的文本,将所述经模糊匹配后的文本输入至所述训练完备的关系抽取模型中,得到文本主实体、文本客体以及第二文本关系分类。6.根据权利要求1所述的知识图谱构建方法,其特征在于,在根据包含所述第一文本关系分类的文本以及训练完备的关系抽取模型,得到文本主实体、文本客体以及第二文本关系分类...

【专利技术属性】
技术研发人员:殷悦迪
申请(专利权)人:平安健康保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1