一种基于图文多模态融合的文档片段语义相似度判定算法制造技术

技术编号:35746367 阅读:33 留言:0更新日期:2022-11-26 18:50
本发明专利技术涉及相似度判定领域,具体为一种基于图文多模态融合的文档片段语义相似度判定算法,其包括以下步骤:S1、对库中的文档和图片进行多模态融合;S2、输入待判断的文档片段;S3、对文档片段进行自动分类标记,同时进行文档的向量化表征;S4、对文档的分类标记进行图片检索,得到相似度a,对向量化表征进行文档检索,得到相似度b;S5、根据结合规则对相似度a和相似度b进行整合,得到最终的文档片段语义相似度判定数值。本发明专利技术中,结合对待检测文档片段的分类标记和向量化表征,分别进行图片检索和文档检索,基于图文多模态融合,有效扩大了文档片段语义相似度判定的检索范围,提高了相似度判定的准确性。似度判定的准确性。似度判定的准确性。

【技术实现步骤摘要】
一种基于图文多模态融合的文档片段语义相似度判定算法


[0001]本专利技术涉及相似度判定领域,尤其涉及一种基于图文多模态融合的文档片段语义相似度判定算法。

技术介绍

[0002]今年来,随着互联网上海量图文的积聚,能够有效地组织这些图文数据和准确搜到相关图文成为一个重要的研究课题。很多场合都需要对文档片段的相似度进行检索判断,例如典型的论文查重。现有的文档片段语义相似度判定多通过文档检索的方式,存在一定局限性,因为有很多图片同样披露了相关文档,例如图片的文档标注,图片中的字样等,这就造成文档片段语义相似度判定时的检索范围不够合理,从而影响最终的相似度判定。

技术实现思路

[0003]本专利技术目的是针对
技术介绍
中存在的文档片段语义相似度判定存在局限性的问题,提出一种基于图文多模态融合的文档片段语义相似度判定算法。
[0004]一方面,本专利技术提出一种基于图文多模态融合的文档片段语义相似度判定算法,包括以下步骤:
[0005]S1、对库中的文档和图片进行多模态融合;
[0006]S2、输入待判断的文档片段;
[0007]S3、对文档片段进行自动分类标记,给予文档一个或多个类别标记,同时进行文档的向量化表征;
[0008]S4、对文档的分类标记进行图片检索,得到相似度a,对向量化表征进行文档检索,得到相似度b;
[0009]S5、根据结合规则对相似度a和相似度b进行整合,得到最终的文档片段语义相似度判定数值。
[0010]优选的,S1中,多模态融合包括图片的文本标注提取、图片中字样识别和提取、图片分类标记、文档向量化表征、文档分类标记和文档图片相似匹配。
[0011]优选的,S3中,文本分类方法包括:KNN法、SVM法、VSM法或Bayes法。
[0012]优选的,S3中,向量化表征方法为平均池化或最大池化,平均池化对表征的矩阵整体进行平均池化,得到向量,最大池化对表征的矩阵整体进行最大池化,得到向量。
[0013]优选的,S4中,图片检索主要检索与文档分类标记相似或相同的图片分类标记;文档检索通过最近邻向量索引完成,最近邻向量索引方法为基于树的annoy和基于图的hnsw,图片中文本标注和图中的文字字样同样参与到文档检索中。
[0014]优选的,S5中,罗列相似度匹配检索到的图片和文档。
[0015]另一方面,本专利技术提出一种基于图文多模态融合的文档片段语义相似度判定算法的文档片段语义相似度判定系统,包括多模态融合模块、文档标记模块、向量化表征模块、最近邻向量索引模块、图片分类标记模块、图片检索相似度判定模块、文档检索相似度判定
模块和最终相似度判定模块;多模块融合模块用来将文档信息和图片信息进行融合;文档标记模块用来对待判定文档进行分类标记;向量化表征模块用来对待检测文档片段进行向量化表述;最近邻向量索引模块用来根据向量化表征模块输出的向量在文本库中寻找相似或相同的文档向量;图片分类标记模块用来对库中的图片进行分类标记,并提取图片相关的文档标注和图片中的文字信息,得到与图片相关的文档信息,图片相关的文档信息与图片一一对应,图片相关的文档信息归入库中文档内,参与到向量化表征的文档检索中;图片检索相似度判定模块用来对文档的分类标记进行图片检索,得到相似度a;文档检索相似度判定模块用来对向量化表征进行文档检索,得到相似度b;最终相似度判定模块用来结合相似度a和相似度b得出最终相似度数值。
[0016]与现有技术相比,本专利技术具有如下有益的技术效果:通过对库中的文档和图片进行多模态融合,然后结合对待检测文档片段的分类标记和向量化表征,分别进行图片检索和文档检索,基于图文多模态融合,有效扩大了文档片段语义相似度判定的检索范围,提高了相似度判定的准确性。
附图说明
[0017]图1为本专利技术一种实施例的流程图;
[0018]图2为文档片段语义相似度判定系统的结构图。
具体实施方式
[0019]实施例一
[0020]如图1所示,本专利技术提出的一种基于图文多模态融合的文档片段语义相似度判定算法,包括以下步骤:
[0021]S1、对库中的文档和图片进行多模态融合;多模态融合包括图片的文本标注提取、图片中字样识别和提取、图片分类标记、文档向量化表征、文档分类标记和文档图片相似匹配;
[0022]S2、输入待判断的文档片段;
[0023]S3、对文档片段进行自动分类标记,给予文档一个或多个类别标记,同时进行文档的向量化表征;文本分类方法包括:KNN法、SVM法、VSM法或Bayes法;向量化表征方法为平均池化或最大池化,平均池化对表征的矩阵整体进行平均池化,得到向量,最大池化对表征的矩阵整体进行最大池化,得到向量;
[0024]S4、对文档的分类标记进行图片检索,得到相似度a,对向量化表征进行文档检索,得到相似度b;图片检索主要检索与文档分类标记相似或相同的图片分类标记;文档检索通过最近邻向量索引完成,最近邻向量索引方法为基于树的annoy和基于图的hnsw,图片中文本标注和图中的文字字样同样参与到文档检索中;
[0025]S5、根据结合规则对相似度a和相似度b进行整合,得到最终的文档片段语义相似度判定数值,并罗列相似度匹配检索到的图片和文档。
[0026]本实施例中,通过对库中的文档和图片进行多模态融合,然后结合对待检测文档片段的分类标记和向量化表征,分别进行图片检索和文档检索,基于图文多模态融合,有效扩大了文档片段语义相似度判定的检索范围,提高了相似度判定的准确性。
[0027]实施例二
[0028]如图2所示,基于上述一种基于图文多模态融合的文档片段语义相似度判定算法的文档片段语义相似度判定系统,包括多模态融合模块、文档标记模块、向量化表征模块、最近邻向量索引模块、图片分类标记模块、图片检索相似度判定模块、文档检索相似度判定模块和最终相似度判定模块;多模块融合模块用来将文档信息和图片信息进行融合;文档标记模块用来对待判定文档进行分类标记;向量化表征模块用来对待检测文档片段进行向量化表述;最近邻向量索引模块用来根据向量化表征模块输出的向量在文本库中寻找相似或相同的文档向量;图片分类标记模块用来对库中的图片进行分类标记,并提取图片相关的文档标注和图片中的文字信息,得到与图片相关的文档信息,图片相关的文档信息与图片一一对应,图片相关的文档信息归入库中文档内,参与到向量化表征的文档检索中;图片检索相似度判定模块用来对文档的分类标记进行图片检索,得到相似度a;文档检索相似度判定模块用来对向量化表征进行文档检索,得到相似度b;最终相似度判定模块用来结合相似度a和相似度b得出最终相似度数值。
[0029]本实施例中,通过对库中的文档和图片进行多模态融合,然后结合对待检测文档片段的分类标记和向量化表征,分别进行图片检索和文档检索,基于图文多模态融合,有效扩大了文档片段语义相似度判定的检索范围,提高了相似度判定的准确性。
[0030]上面结合附图对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图文多模态融合的文档片段语义相似度判定算法,其特征在于,包括以下步骤:S1、对库中的文档和图片进行多模态融合;S2、输入待判断的文档片段;S3、对文档片段进行自动分类标记,给予文档一个或多个类别标记,同时进行文档的向量化表征;S4、对文档的分类标记进行图片检索,得到相似度a,对向量化表征进行文档检索,得到相似度b;S5、根据结合规则对相似度a和相似度b进行整合,得到最终的文档片段语义相似度判定数值。2.根据权利要求1所述的基于图文多模态融合的文档片段语义相似度判定算法,其特征在于,S1中,多模态融合包括图片的文本标注提取、图片中字样识别和提取、图片分类标记、文档向量化表征、文档分类标记和文档图片相似匹配。3.根据权利要求1所述的基于图文多模态融合的文档片段语义相似度判定算法,其特征在于,S3中,文本分类方法包括:KNN法、SVM法、VSM法或Bayes法。4.根据权利要求1所述的基于图文多模态融合的文档片段语义相似度判定算法,其特征在于,S3中,向量化表征方法为平均池化或最大池化,平均池化对表征的矩阵整体进行平均池化,得到向量,最大池化对表征的矩阵整体进行最大池化,得到向量。5.根据权利要求1所述的基于图文多模态融合的文档片段语义相似度判定算法,其特征在于,S4中,图片检索主要检索与文档分类标记相似或相同的图片分类标记;文档检索通过最近邻向...

【专利技术属性】
技术研发人员:汤力杨震乾梁国迪潘媛
申请(专利权)人:云南电网有限责任公司信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1