一种基于特定范围的多模态检索方法及装置制造方法及图纸

技术编号:39429403 阅读:11 留言:0更新日期:2023-11-19 16:14
本发明专利技术公开了一种基于特定范围的多模态检索方法及装置,该方法包括:获取特定场景版式文件;所述特定场景版式文件包括标准版式文件、图像文件和音视频文件;利用解析工具对所述标准版式文件进行处理,得到标准版式文件中的文字内容;对所述图像文件进行处理,得到图像文件中的文字内容;对所述音视频文件进行处理,得到音视频文件中的文字内容;对所述标准版式文件中的文字内容、所述图像文件中的文字内容和所述音视频文件中的文字内容进行处理,建立检索库;利用关键词检索方法,对所述检索库进行搜索,得到对应的多模态内容。本发明专利技术方法提高了文件搜索效率,同时提高文件搜索精度。度。度。

【技术实现步骤摘要】
一种基于特定范围的多模态检索方法及装置


[0001]本专利技术涉及图像识别技术、音频转写技术融合的检索
,尤其涉及一种基于特定范围的多模态检索方法及装置。

技术介绍

[0002]随着计算机及信息技术的迅速发展,信息检索能力是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息的过程和技术。随着图像识别技术主要是指采用计算机按照既定目标对捕获的系统前端图片进行处理,在人工智能领域,神经网络是图像识别领域最广泛的应用,图像的矢量或光栅编码被转换为代表物体特性的特征向量。光学字符识别(Optical Character Recognition,OCR)主要包含文本检测和文本识别两个部分,其中文本检测通过对图像的局部处理分割图像中文本信息,以此来适应不同尺寸、长宽比和形状的文本框形态,提高检测的鲁棒性。文本识别则是将检测出来的文本框图片解析出文字内容。依托于神经网络的时序分类模型对文本检测得出的文本框进行数据特征识别能够在实际场景中更好地完成文字识别任务。
[0003]在海量数据高速增长的背景下,如何在各类型数据中检索到自身需要的内容变得尤为重要。但是目前的搜索引擎主要针对文字内容进行检索,对其他类型的数据比如音视频内容的检索无法达到较为精确的定位。因此为了提高检索效率,实现多样数据共同检索的效果,需要一种能够识别并分析音视频内容,并与文本检索内容合并的工具,通过关键词能够检索出文本以及音视频的各项内容。

技术实现思路

[0004]本专利技术所要解决的技术问题在于,提供一种基于特定范围的多模态检索方法及装置,能够在特定范围内有效地利用版式文件解析、图像文字识别和音频转写技术,结合ES关键词检索实现多模态的文件搜索能力,进一步提高文件搜索效率,同时提高文件搜索精度。
[0005]为了解决上述技术问题,本专利技术实施例第一方面公开了一种基于特定范围的多模态检索方法,所述方法包括:
[0006]S1,获取特定场景版式文件;
[0007]所述特定场景版式文件包括标准版式文件、图像文件和音视频文件;
[0008]S2,利用解析工具对所述标准版式文件进行处理,得到标准版式文件中的文字内容;
[0009]S3,对所述图像文件进行处理,得到图像文件中的文字内容;
[0010]S4,对所述音视频文件进行处理,得到音视频文件中的文字内容;
[0011]S5,对所述标准版式文件中的文字内容、所述图像文件中的文字内容和所述音视频文件中的文字内容进行处理,建立检索库;
[0012]S6,利用多模态组合检索方法,对所述检索库进行搜索,得到对应的多模态检索结果。
[0013]作为一种可选的实施方式,本专利技术实施例第一方面中,所述对所述图像文件进行处理,得到图像文件中的文字内容,包括:
[0014]S31,对所述图像文件进行二值化处理,得到二值化图像;
[0015]S32,利用文字检测模型对所述二值化图像进行文字检测,得到文字位置信息;
[0016]所述文字检测模型包括第一处理模块和第二处理模块;
[0017]S33,对所述文字位置信息进行处理,得到图像文件中的文字内容。
[0018]作为一种可选的实施方式,本专利技术实施例第一方面中,所述对所述图像文件进行二值化处理,得到二值化图像,包括:
[0019]S311,对所述图像文件中的任意一个像素进行处理,得到任意一个像素的邻域块;
[0020]S312,对所述任意一个像素的邻域块中的像素进行处理,得到所述任意一个像素的二值化阈值;
[0021]S313,利用所述任意一个像素的二值化阈值对所述任意一个像素进行二值化处理,得到二值化图像。
[0022]作为一种可选的实施方式,本专利技术实施例第一方面中,所述利用文字检测模型对所述二值化图像进行文字检测,得到文字位置信息,包括:
[0023]S321,利用所述文字检测模型的第一处理模块对所述二值化图像进行处理,得到所述二值化图像的特征矩阵;
[0024]S322,利用所述文字检测模型的第二处理模块对所述二值化图像的特征矩阵进行处理,得到文字位置信息。
[0025]作为一种可选的实施方式,本专利技术实施例第一方面中,所述对所述文字位置信息进行处理,得到图像文件中的文字内容,包括:
[0026]S331,利用DenseNet网络模型,对所述文字位置信息进行处理,得到所述文字位置信息的潜在特征向量;
[0027]S332,利用CTC网络模型,对所述文字位置信息的潜在特征向量进行处理,得到图像文件中的文字内容。
[0028]作为一种可选的实施方式,本专利技术实施例第一方面中,所述对所述音视频文件进行处理,得到音视频文件中的文字内容,包括:
[0029]利用预设的说话人识别模型,对所述音视频文件进行处理,得到音视频文件中的文字内容;
[0030]所述预设的说话人识别模型包括正向部分和反向部分;
[0031]所述正向部分为BiLSTM模型,所述反向部分为截断的LSTM模型。
[0032]作为一种可选的实施方式,本专利技术实施例第一方面中,所述对所述标准版式文件中的文字内容、所述图像文件中的文字内容和所述音视频文件中的文字内容进行处理,建立检索库,包括:
[0033]利用预设的分析器对所述标准版式文件中的文字内容、所述图像文件中的文字内容和所述音视频文件中的文字内容进行处理,得到每个文字内容的单词串;
[0034]对所述每个文字内容的单词串建立倒排列表;
[0035]所述倒排列表用于记录出现过某个单词的所有文档的文档列表及所述单词在文档中出现的位置信息;
[0036]所述每个文字内容的倒排列表构成检索库。
[0037]本专利技术实施例第二方面公开了一种基于特定范围的多模态检索装置,所述装置包括:
[0038]数据获取模块,用于获取特定场景版式文件;
[0039]所述特定场景版式文件包括标准版式文件、图像文件和音视频文件;
[0040]标准版式文件处理模块,用于利用解析工具对所述标准版式文件进行处理,得到标准版式文件中的文字内容;
[0041]图像文件处理模块,用于对所述图像文件进行处理,得到图像文件中的文字内容;
[0042]音视频文件处理模块,用于对所述音视频文件进行处理,得到音视频文件中的文字内容;
[0043]检索库建立模块,用于对所述标准版式文件中的文字内容、所述图像文件中的文字内容和所述音视频文件中的文字内容进行处理,建立检索库;
[0044]搜索模块,用于利用关键词检索方法,对所述检索库进行搜索,得到对应的多模态内容。
[0045]作为一种可选的实施方式,本专利技术实施例第二方面中,所述对所述图像文件进行处理,得到图像文件中的文字内容,包括:
[0046]S31,对所述图像文件进行二值化处理,得到二值化图像;
[0047]S32,利用文字检测模型对所述二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特定范围的多模态检索方法,其特征在于,所述方法包括:S1,获取特定场景版式文件;所述特定场景版式文件包括标准版式文件、图像文件和音视频文件;S2,利用解析工具对所述标准版式文件进行处理,得到标准版式文件中的文字内容;S3,对所述图像文件进行处理,得到图像文件中的文字内容;S4,对所述音视频文件进行处理,得到音视频文件中的文字内容;S5,对所述标准版式文件中的文字内容、所述图像文件中的文字内容和所述音视频文件中的文字内容进行处理,建立检索库;S6,利用多模态组合检索方法,对所述检索库进行搜索,得到对应的多模态检索结果。2.根据权利要求1所述的基于特定范围的多模态检索方法,其特征在于,所述对所述图像文件进行处理,得到图像文件中的文字内容,包括:S31,对所述图像文件进行二值化处理,得到二值化图像;S32,利用文字检测模型对所述二值化图像进行文字检测,得到文字位置信息;所述文字检测模型包括第一处理模块和第二处理模块;S33,对所述文字位置信息进行处理,得到图像文件中的文字内容。3.根据权利要求2所述的基于特定范围的多模态检索方法,其特征在于,所述对所述图像文件进行二值化处理,得到二值化图像,包括:S311,对所述图像文件中的任意一个像素进行处理,得到任意一个像素的邻域块;S312,对所述任意一个像素的邻域块中的像素进行处理,得到所述任意一个像素的二值化阈值;S313,利用所述任意一个像素的二值化阈值对所述任意一个像素进行二值化处理,得到二值化图像。4.根据权利要求2所述的基于特定范围的多模态检索方法,其特征在于,所述利用文字检测模型对所述二值化图像进行文字检测,得到文字位置信息,包括:S321,利用所述文字检测模型的第一处理模块对所述二值化图像进行处理,得到所述二值化图像的特征矩阵;S322,利用所述文字检测模型的第二处理模块对所述二值化图像的特征矩阵进行处理,得到文字位置信息。5.根据权利要求2所述的基于特定范围的多模态检索方法,其特征在于,所述对所述文字位置信息进行处理,得到图像文件中的文字内容,包括:S331,利用DenseNet网络模型,对所述文字位置信息进行处理,得到所述文字位置信息的潜在特征向量;S332,利用CTC网络模型,对所述文字位置信息的潜在特征向量进行处理,得到图像...

【专利技术属性】
技术研发人员:乔彩丽张昊博贺荣张鹏飞李亚楠
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1