一种材料数据用知识图谱分析方法、系统、电子设备及介质技术方案

技术编号:32818687 阅读:33 留言:0更新日期:2022-03-26 20:15
本发明专利技术涉及数据处理技术领域,其目的在于提供一种材料数据用知识图谱分析方法、系统、电子设备及介质。其中的方法包括:获取原始材料数据,并对所述原始材料数据进行实体关系识别处理,得到材料知识图谱;实时判断是否接收到查询指令以及与所述查询指令对应的待查询信息,若是,则对所述待查询信息进行实体识别,得到所述待查询信息对应的待检测实体,最后将所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出。本发明专利技术解决了材料数据知识的关联与整合问题,可有助于用户快速选取相关满足性能要求的材料。足性能要求的材料。足性能要求的材料。

【技术实现步骤摘要】
一种材料数据用知识图谱分析方法、系统、电子设备及介质


[0001]本专利技术涉及数据处理
,特别是涉及一种材料数据用知识图谱分析方法、系统、电子设备及介质。

技术介绍

[0002]知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,并可利用可视化技术形象描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。基于知识图谱,可把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
[0003]但是,在使用现有技术过程中,专利技术人发现现有技术中至少存在如下问题:现有技术中并针对材料数据构建知识图谱。而由于材料的特性广泛,各条材料数据之间相对独立,材料的属性、各类性能指标及应用等数据项之间缺乏关联性,导致在用户寻找可替换材料等信息时,检索工作较为繁琐,因而,有必要研究一种用于材料数据的知识图谱分析方法。

技术实现思路

[0004]本专利技术旨在至少在一定程度上解决上述技术问题,本专利技术提供了一种材料数据用知识图谱分析方法、系统、电子设备及介质。
[0005]本专利技术采用的技术方案是:第一方面,本专利技术提供了一种材料数据用知识图谱分析方法,包括:获取原始材料数据,并对所述原始材料数据进行实体关系识别处理,得到所述原始材料数据中的所有实体、所有实体之间的关系以及与所有实体对应的标识码;将所有实体与其对应的标识码进行绑定,并对所有实体以及所有实体的关系进行实体融合,得到材料知识图谱;实时判断是否接收到查询指令以及与所述查询指令对应的待查询信息,若是,则对所述待查询信息进行实体识别,得到所述待查询信息对应的待检测实体,并进入下一步;获取所述待检测实体对应的标识码,并根据所述待检测实体对应的标识码,在所述知识图谱中筛选得到绑定有所述待检测实体对应的标识码的所有相关实体,并抽取所述待检测实体与所述相关实体之间的关系以及所有相关实体之间的关系;将所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出。
[0006]在一个可能的设计中,对所述原始材料数据进行实体关系识别处理时,基于实体关系识别模型实现,其中,所述实体关系识别模型包括编码层、主体识别指针网络、主体掩码计算模块、Transformer层、关系

客体指针网络、客体识别网络和标识码生成模块;基于所述实体关系识别模型对所述原始材料数据进行实体关系识别处理的步骤如下:
将所述原始材料数据输入所述编码层进行文本编码处理,得到文本向量序列;将所述文本向量序列输入所述主体识别指针网络进行主体生成处理,得到所述原始材料数据中的所有主体;将所有主体输入所述主体掩码计算模块进行计算,得到所有主体对应的主体掩码序列;将所述文本向量序列和所述主体掩码序列输入Transformer层进行处理,得到所有主体对应的主体向量序列;将所述主体向量序列和所述文本向量序列输入所述关系

客体指针网络进行处理,得到关系

客体向量序列;将所述关系

客体向量序列输入客体识别网络进行预测处理,得到与所有主体对应的相关客体,其中,所有主体以及与所有主体对应的相关客体即为根据所述原始材料数据得到的实体;将所述实体输入所述标识码生成模块进行标识码生成处理,得到所述实体对应的标识码。
[0007]在一个可能的设计中,所述主体识别指针网络对所述文本向量序列进行主体生成处理,得到所述原始材料数据中的所有主体时,步骤如下:计算所述文本向量序列中所有文字为主体开始位置的第一概率及为主体结束位置的第二概率;判断所述文本向量序列中任一文字的第一概率或第二概率是否大于第一阈值,若是,则将该文字所在的位置标记为1,否则将该文字所在的位置标记为0;从所述文本向量序列的首位文字开始,将所述位置标记为1的文字与所述文本向量序列中位置在该文字之后的所在位置标记为1的文字进行配对处理,得到一个主体,然后将进行该所述位置标记为1的文字之后文字的配对处理,直到得到所述原始材料数据中的所有主体。
[0008]在一个可能的设计中,所述文本向量序列中,第i个文字为主体开始位置的第一概率为:f1(i)=σ(W1*a(i)+b1);所述文本向量序列中,第i个文字为主体结束位置的第二概率为:f2(i)=σ(W2*a(i)+b2);其中,σ为sigmoid函数,W1、b1、W2和b2为与关系类型相关的可训练参数,a(i)为所述文本向量序列中第i个文字的位置向量。
[0009]在一个可能的设计中,所述原始材料数据从预存的材料数据库获取,所述材料数据库中包括数据属性和性能数据;所述数据属性包括材料类别、名称、生产单位、研制单位、成分、品种、技术标准、工艺、规格和/或批次;所述性能数据包括力学性能数据和/或物理性能数据。
[0010]在一个可能的设计中,获取原始材料数据后,所述材料数据用知识图谱分析方法还包括:对材料数据进行预处理,然后将预处理后实体进行实体关系识别处理;其中,所述预处理包括标准化处理、数据清洗处理和/或数据噪声处理。
[0011]在一个可能的设计中,对所述待查询信息进行实体识别时,包括:采用循环神经网络对所述待查询信息进行句法解析,得到解析后待查询信息;将解析后待查询信息输入基于LSTM+CRF的序列标注模型,得到与所述待查询信息对应的待检测实体。
[0012]本专利技术通过生成材料知识图谱,解决了材料数据知识的关联与整合问题,还可有助于用户快速选取相关满足性能要求的材料。具体地,本专利技术在实施过程中,通过对所述原始材料数据进行实体关系识别处理,并进行实体融合等操作,实现了材料数据知识的关联与整合,增强了材料知识的连通性,有利于将材料知识图谱应用于材料数据直接相关、间接相关及隐含相关等数据间关系的挖掘;此外,本专利技术中,在接收到查询指令以及与所述查询指令对应的待查询信息时,可通过获取所述待查询信息对应的待检测实体及对应的标识码,得到与所述待检测实体的所有相关实体、所述待检测实体与所述相关实体之间的关系以及所有相关实体之间的关系,然后对所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出,由此便于用户掌握与待查询信息关联的所有信息,从而便于用户进行材料选取等工作。
[0013]第二方面,本专利技术提供了一种材料数据用知识图谱分析系统,用于实现如上述任一项所述的材料数据用知识图谱分析方法;所述材料数据知识图谱构建系统包括:实体关系识别处理模块,用于获取原始材料数据,并对所述原始材料数据进行实体关系识别处理,得到所述原始材料数据中的所有实体、所有实体之间的关系以及与所有实体对应的标识码;知识图谱生成模块,用于将所有实体与其对应的标识码进行绑定,并对所有实体以及所有实体的关系进行实体融合,得到材料知识图谱;查询模块,用于实时判本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种材料数据用知识图谱分析方法,其特征在于:包括:获取原始材料数据,并对所述原始材料数据进行实体关系识别处理,得到所述原始材料数据中的所有实体、所有实体之间的关系以及与所有实体对应的标识码;将所有实体与其对应的标识码进行绑定,并对所有实体以及所有实体的关系进行实体融合,得到材料知识图谱;实时判断是否接收到查询指令以及与所述查询指令对应的待查询信息,若是,则对所述待查询信息进行实体识别,得到所述待查询信息对应的待检测实体,并进入下一步;获取所述待检测实体对应的标识码,并根据所述待检测实体对应的标识码,在所述知识图谱中筛选得到绑定有所述待检测实体对应的标识码的所有相关实体,并抽取所述待检测实体与所述相关实体之间的关系以及所有相关实体之间的关系;将所述材料知识图谱中的所述待检测实体与所述相关实体之间的关系、所有相关实体之间的关系、所述相关实体以及所述待检测实体进行多层级联可视化输出。2.根据权利要求1所述的一种材料数据用知识图谱分析方法,其特征在于:对所述原始材料数据进行实体关系识别处理时,基于实体关系识别模型实现,其中,所述实体关系识别模型包括编码层、主体识别指针网络、主体掩码计算模块、Transformer层、关系

客体指针网络、客体识别网络和标识码生成模块;基于所述实体关系识别模型对所述原始材料数据进行实体关系识别处理的步骤如下:将所述原始材料数据输入所述编码层进行文本编码处理,得到文本向量序列;将所述文本向量序列输入所述主体识别指针网络进行主体生成处理,得到所述原始材料数据中的所有主体;将所有主体输入所述主体掩码计算模块进行计算,得到所有主体对应的主体掩码序列;将所述文本向量序列和所述主体掩码序列输入Transformer层进行处理,得到所有主体对应的主体向量序列;将所述主体向量序列和所述文本向量序列输入所述关系

客体指针网络进行处理,得到关系

客体向量序列;将所述关系

客体向量序列输入客体识别网络进行预测处理,得到与所有主体对应的相关客体,其中,所有主体以及与所有主体对应的相关客体即为根据所述原始材料数据得到的实体;将所述实体输入所述标识码生成模块进行标识码生成处理,得到所述实体对应的标识码。3.根据权利要求2所述的一种材料数据用知识图谱分析方法,其特征在于:所述主体识别指针网络对所述文本向量序列进行主体生成处理,得到所述原始材料数据中的所有主体时,步骤如下:计算所述文本向量序列中所有文字为主体开始位置的第一概率及为主体结束位置的第二概率;判断所述文本向量序列中任一文字的第一概率或第二概率是否大于第一阈值,若是,则将该文字所在的位置标记为1,否则将该文字所在的位置标记为0;从所述文本向量序列的首位文字开始,将所述位置标记为1的文字与所述文本向量序
列中位置在该文字之后的所在位置标记为1的文字进行配对处理,得到一个主体,然后将进行该所述位置标记为1的文字之后文字的配对处理,直到得到所述原始材料数据中的所有主体。4.根据权利要求3所述的一种材料数据用知识图谱分析方法,其特征在于...

【专利技术属性】
技术研发人员:张洪梅程兴旺肖晖
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1