一种基于多模态注意力图谱的专利检索方法及系统技术方案

技术编号:36406586 阅读:68 留言:0更新日期:2023-01-18 10:15
本发明专利技术公开了一种基于多模态注意力图谱的专利检索方法及系统,该方法包括应用实体关系抽取模型对专利文档中的相关实体及其关系构建为多模态知识图谱,利用多模态模型对专利文档的文本和附图进行向量编码,基于多模态知识图谱结合注意力机制表示学习方法,将专利文本和附图在统一表示空间中进行关联编码,构建以专利各组成单元的文本、附图为实体关系的多模态知识图谱,通过图注意力机制有效融合了文本和附图之间、文档内部各组成部分之间的语义关联关系,克服了传统文本和图片检索中无法深度利用文本图片内在深层语义关联关系的缺点,提升了专利多模态检索的查全率和查准率。提升了专利多模态检索的查全率和查准率。提升了专利多模态检索的查全率和查准率。

【技术实现步骤摘要】
一种基于多模态注意力图谱的专利检索方法及系统


[0001]本专利技术涉及文献检索
,具体涉及一种基于多模态注意力图谱的专利检索方法及系统。

技术介绍

[0002]专利文档中包含丰富的文本和附图信息,本质上是一种多模态的媒体类型,需要综合利用文本和图像分析方法进行精准和高效的处理。基于专利检索进行专利查重和侵权检测是专利申请和维权过程中的一个关键核心环节,如何实现精准高效检索已经成为专利系统建设中的一项重要内容。当前的专利检索通常基于用户输入的查询文本和专利文本的相似度匹配实现,缺乏综合利用文本和图片进行融合检索的技术手段。因此,如何从精准高效地从用户输入的文本和图片中检索出相关专利已然成为目前的一项重要研究内容。
[0003]目前常见的专利检索方法一般针对文本和图片进行独立编码,基于用户输入的文本或者图片与专利文本或者附图向量间的相似度检索实现,现有方法缺乏文本与图片之间深度关联关系分析,也没有充分利用专利文档中各内部组成单元之间的关联语义信息,导致专利检索过程中输入与目标之间的相似度量不准确,使得最终专利检索的完整性和准确率整体本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多模态注意力图谱的专利检索方法,其特征在于,包括:应用实体关系抽取模型对专利文档中的相关实体及其关系构建为多模态知识图谱,所述相关实体包括篇章、段落、句子、附图;利用多模态模型对专利文档的文本和附图进行向量编码,将生成的向量附加到所述多模态知识图谱中对应的节点作为其向量属性,并存储到向量数据库中;在所述多模态知识图谱中应用注意力机制对文本和附图执行增强的图嵌入表征学习;当进行专利检索时,对用户输入的文本或图片应用多模态预训练模型进行编码,将编码得到的向量与知识图谱中的节点进行向量间相似度计算,并按照相似度进行排序。2.如权利要求1所述的专利检索方法,其特征在于,所述应用实体关系抽取模型对专利文件中的相关实体及其关系构建为多模态知识图谱,包括专利文档解析、实体关系抽取,具体为:专利文档解析,专利文档结构解析和篇章段落分割,将专利的标题、摘要、权利声明、说明书部分以及附图进行分割,然后将各部分内部文本拆分为句子,构建为树形数据结构的文档树;实体关系抽取,将分割后的文档树中的文档、篇章、段落、句子以及附图构建为图谱中的节点,之间的从属、邻接关系构建为图谱中的关系。3.如权利要求2所述的专利检索方法,其特征在于,所述应用实体关系抽取模型对专利文件中的相关实体及其关系构建为多模态知识图谱,还包括知识补全,具体如下:补充完善图谱中节点间的内在隐含的语义关联关系,通过计算节点关联的文本和图片之间相似度度量,超过预定的阈值后添加,所述文本、图片之间的相似度通过最长公共子串LCS和预训练模型进行计算。4.如权利要求1所述的专利检索方法,其特征在于,所述图嵌入表征学习是基于图的邻接关系计算通过注意力机制编码GAT实现的。5.如权利要求1所述的专利检索方法,其特征在于,所述专利检索步骤中,所述向量间相似度计算具体为:以输入向量与向量库中的候选向量间的余弦距离:为度量,通过向量数据库进行相似检索比对,选择与输入检索向量距离最近的前K篇候选专利文档,作为最终的检索结果,其中,s
1i

【专利技术属性】
技术研发人员:徐青伟严长春裴非范娥媚蔡明睿
申请(专利权)人:知呱呱天津大数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1