一种材料知识图谱的构建方法、材料知识图谱及应用技术

技术编号:34511368 阅读:20 留言:0更新日期:2022-08-13 20:57
本申请公开了一种材料知识图谱的构建方法、材料知识图谱及应用。本申请的构建方法,包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片,分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息,根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。本申请方法,为包含文本、晶体结构和材料表征图片三种形式信息的多模态材料知识图谱构建流程,构建的材料知识图谱,更完整、高效,可实现对过往材料科学信息的高效分析与管理,实现基于数据驱动的材料科学知识发现,对材料科学信息进行高效溯源分析,实现对新材料的推理预测,加速新材料的设计与发现。设计与发现。设计与发现。

【技术实现步骤摘要】
一种材料知识图谱的构建方法、材料知识图谱及应用


[0001]本申请涉及材料知识图谱
,特别是涉及一种材料知识图谱的构建方法、材料知识图谱及应用。

技术介绍

[0002]2012年,Google正式提出了“知识图谱(Knowledge Graph)”的概念,其初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验。本质上,知识图谱是揭示实体之间关系的语义网络,以符号形式描述物理世界中的概念以及相互关系。知识图谱在多个领域发挥了重要的作用,例如金融、生物医药、电商等,知识图谱通过其高效的知识管理能力为任务场景赋能,进行更深层次的分析,辅助决策。
[0003]经过长时间的发展,海量的材料科学文献、大量的晶体结构信息与材料表征图片中积累了丰富的材料科学信息,但是如何从这些材料科学信息中高效获取所需的信息和知识仍然十分困难。
[0004]近年来,材料领域知识图谱的研究初步出现,例如基于子图语义距离(DLSSD)和字符串相似度(SDSS)的金属材料知识图谱、通过关联不断扩充每种材料的可用信息量的材料属性关联框架propnet,除此之外,还出现了致力于收集纳米复合材料的加工、结构和性能的实验和计算数据的纳米复合材料知识图谱。但是,这些工作仅仅聚焦于文本信息,导致知识图谱的不完整性和片面性。
[0005]因此,如何研发更完整、高效的材料知识图谱,是本领域亟待解决的问题。

技术实现思路

[0006]本申请的目的是提供一种改进的材料知识图谱的构建方法,由此构建的材料知识图谱及其应用。/>[0007]本申请采用了以下技术方案:
[0008]本申请的一方面公开了一种材料知识图谱的构建方法,包括以下步骤:
[0009]数据获取步骤,包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片;文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息,以及相应的作者信息;
[0010]特征抽取步骤,包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息;文本信息的数据处理,包括对不同来源的文本信息进行融合,获得目标材料实体的特征信息,对文本类型实体进行标注;晶体结构信息的数据处理,包括对晶体结构数据进行编码,将结构信息向量化,根据晶体结构文件的名称对结构类型实体进行标注;材料表征图片的数据处理,包括对材料表征图片进行处理,提取图形特征,根据表征图片的标题信息对图片类型实体进行标注;
[0011]知识融合步骤,包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。
[0012]需要说明的是,本申请的材料知识图谱构建方法,对文本信息、晶体结构信息和材料表征图片进行特征抽取和融合,从而构建获得更完整、高效的多模态材料知识图谱。
[0013]本申请的一种实现方式中,本申请的构建方法还包括存储和应用步骤;该存储和应用步骤,包括对知识融合步骤获得的材料知识图谱进行存储,并在可视化插件的支持下对材料知识图谱进行查询、分析和展示。
[0014]需要说明的是,单纯就材料知识图谱构建而言,经过知识融合步骤即可获得所需的材料知识图谱;但是,一般来说,知识图谱的构建还包括其应用。因此,本申请的构建方法还包括存储和应用步骤,即对材料知识图谱进行存储和可视化插件支持下的查询、分析和展示。可以理解,本申请的关键在于材料知识图谱,至于具体如何存储,可以参考现有技术,例如存储于Neo4j、MongoDB等等数据库中;至于可视化插件可以参考现有的数据库检索和分析系统,在此不作具体限定。
[0015]本申请的一种实现方式中,文本信息的数据处理中,对不同来源的文本信息进行融合,获得目标材料实体的特征信息,具体包括,对不同来源的文本进行词嵌入训练,得出不同来源的文本的词向量,采用注意力机制对不同来源的文本的词向量进行融合,得到最终的融合向量。
[0016]本申请的一种实现方式中,不同来源的文本包括所有材料文本、目标材料文本、重要信息文本;所有材料文本是指所有的材料文本,目标材料文本是指研究的目标材料的相关文本,重要信息文本是指包含重要信息的文本。
[0017]需要说明的是,本申请创造性的设计“多源文本信息融合”流程将多种来源的信息进行融合以增加目标材料实体分布式信息的含量,从而提升目标材料实体的词嵌入的质量,最后根据文本信息对文本类型实体自动化标注。
[0018]本申请的一种实现方式中,晶体结构信息的数据处理中,对晶体结构数据进行编码,将结构信息向量化,具体包括,采用图论、库伦矩阵、拓扑描述符和倒空间信息中的至少一种对晶体结构信息进行向量化。
[0019]需要说明的是,晶体结构信息向量化的目的是使晶体结构信息变成能够被计算机识别和处理的信息;图论、库伦矩阵、拓扑描述符和倒空间信息只是本申请的一种实现方式中列举的可以对晶体结构数据进行向量化的方式;不排除还可以采用其他方式实现晶体结构的向量化。
[0020]本申请的一种实现方式中,材料表征图片的数据处理中,对材料表征图片进行处理,提取图形特征,包括对材料形状、边缘、尺寸、原子空间分布进行特征提取。
[0021]本申请的一种实现方式中,材料表征图片的数据处理,具体包括,使用基于深度学习的图像分割算法对材料表征图片进行处理,采用语义分割将材料表征图片分割成若干个部分,从中提取图形特征。
[0022]本申请的一种实现方式中,作者信息包括作者的姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位。
[0023]本申请的一种实现方式中,知识融合步骤还包括,在进行三类实体的对应和关联之前,进行作者消歧处理;作者消歧处理包括,(1)使用机器学习模型

朴素贝叶斯模型,将作者信息按照对应的摘要文本进行分类;(2)使用数据库重复检测技术

匹配依赖算法,对步骤(1)获得的每个分类中的作者信息及其相应的文本信息按照相似性分“块”,将相似度
高的作者信息分类于一个“块”中;(3)再次应用朴素贝叶斯模型,对步骤(2)获得的每个“块”再次进行分类,减少错误及重复关联;(4)利用CTANE算法进行匹配,通过剪枝策略对CTANE算法每一层的候选集进行剪枝,提升信息匹配的速度和效率。
[0024]本申请的另一面公开了本申请的构建方法获得的材料知识图谱。
[0025]需要说明的是,本申请的材料知识图谱可以存储于数据库中,在可视化插件的支持下,使得存储本申请材料知识图谱的数据库能够实现对材料相关信息的查询、分析和展示。可以理解,本申请的材料知识图谱也可以单独的储存于只读存储器、随机存储器、磁盘、光盘、硬盘等计算机可读存储介质中,单独作为材料知识图谱的数据库;使用时直接利用该计算机可读存储介质,或者通过下载或复制保存到本地设备的存储器中,通过可视化插件对本申请的材料知识图谱进行查询、分析和展示。
[0026]本申请的再一面公开了一种构建材料知识图谱的装本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种材料知识图谱的构建方法,其特征在于:包括以下步骤,数据获取步骤,包括分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片;所述文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息,以及相应的作者信息;特征抽取步骤,包括分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息;文本信息的数据处理,包括对不同来源的文本信息进行融合,获得目标材料实体的特征信息,对文本类型实体进行标注;晶体结构信息的数据处理,包括对晶体结构数据进行编码,将结构信息向量化,根据晶体结构文件的名称对结构类型实体进行标注;材料表征图片的数据处理,包括对材料表征图片进行处理,提取图形特征,根据表征图片的标题信息对图片类型实体进行标注;知识融合步骤,包括根据特征抽取步骤标注的标签对文本信息、晶体结构信息和材料表征图片三类实体进行对应和关联,获得材料知识图谱。2.根据权利要求1所述的构建方法,其特征在于:还包括存储和应用步骤;所述存储和应用步骤,包括对知识融合步骤获得的材料知识图谱进行存储,并在可视化插件的支持下对材料知识图谱进行查询、分析和展示;优选的,所述文本信息的数据处理中,对不同来源的文本信息进行融合,获得目标材料实体的特征信息,具体包括,对不同来源的文本进行词嵌入训练,得出不同来源的文本的词向量,采用注意力机制对不同来源的文本的词向量进行融合,得到最终的融合向量;优选的,所述不同来源的文本包括所有材料文本、目标材料文本、重要信息文本;所述所有材料文本是指所有的材料文本,所述目标材料文本是指研究的目标材料的相关文本,所述重要信息文本是指包含重要信息的文本;优选的,所述晶体结构信息的数据处理中,对晶体结构数据进行编码,将结构信息向量化,具体包括,采用图论、库伦矩阵、拓扑描述符和倒空间信息中的至少一种对晶体结构信息进行向量化;优选的,所述材料表征图片的数据处理中,对材料表征图片进行处理,提取图形特征,包括对材料形状、边缘、尺寸、原子空间分布进行特征提取;优选的,所述材料表征图片的数据处理,具体包括,使用基于深度学习的图像分割算法对材料表征图片进行处理,采用语义分割将材料表征图片分割成若干个部分,从中提取图形特征。3.根据权利要求1或2所述的构建方法,其特征在于:所述作者信息包括作者的姓氏、名字、开放研究者与贡献者身份识别码、电子邮箱地址、所属机构单位;优选的,所述知识融合步骤还包括,在进行三类实体的对应和关联之前,进行作者消歧处理;所述作者消歧处理包括,(1)使用机器学习模型

朴素贝叶斯模型,将作者信息按照对应的摘要文本进行分类;(2)使用数据库重复检测技术

匹配依赖算法,对步骤(1)获得的每个分类中的作者信息及其相应的文本信息按照相似性分“块”,将相似度高的作者信息分类于一个“块”中;(3)再次应用朴素贝叶斯模型,对步骤(2)获得的每个“块”再次进行分类,减少错误及重复关联;(4)利用CTANE算法进行匹配,通过剪枝策略对CTANE算法每一层的候选集进行剪枝,提升信息匹配的速度和效率。
4.根据权利要求1

3任一项所述的构建方法获得的材料知识图谱。5.一种构建材料知识图谱的装置,其特征在于:包括数据获取模块、特征抽取模块和知识融合模块;数据获取模块,包括用于分别获取材料及其相关的文本信息、晶体结构信息和材料表征图片;所述文本信息为包括文献标题、摘要、关键词、正文、支撑材料、参考文献在内的全文信息,以及相应的作者信息;特征抽取模块,包括用于分别对文本信息、晶体结构信息和材料表征图片进行数据处理,抽取特征信息;其中,文本信息的数据处理,包括对不同来源的文本信息进行融合,获得目标材料实体的特征信息,对文本类型实体进行标注;晶体结构信息的数据处理,包括对晶体结构数据进行编码,将结构信息向量化,根据晶体结构文件的名称对结构类型实体进行标注;材料表征图片的数据处理,包括对材料表征图片进行处理,提取图...

【专利技术属性】
技术研发人员:潘锋聂志伟李舜宁
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1