基于多模态神经网络模型的图文视频化方法、装置及设备制造方法及图纸

技术编号:38318547 阅读:14 留言:0更新日期:2023-07-29 09:00
本发明专利技术涉及深度学习领域及数字医疗领域,揭露一种基于多模态神经网络模型的图文视频化方法、装置、电子设备以及存储介质,所述方法包括:获取图片资源与初始文本,对图片资源进行图片过滤,提取过滤图片的局部特征,根据局部特征,计算过滤图片的全局特征;利用自然语言处理技术对所述初始文本进行文本切割,计算切割文本的编码特征;计算全局特征与编码特征的特征相似度,确定图片资源与初始文本的图文匹配结果;计算编码特征的注意力值,根据注意力值,确定语音匹配结果;确定图片资源与初始文本的视频格式,确定图片资源与初始文本的图文视频生成结果。本发明专利技术可以提高医疗图文的视频化效率。频化效率。频化效率。

【技术实现步骤摘要】
基于多模态神经网络模型的图文视频化方法、装置及设备


[0001]本专利技术涉及深度学习领域及数字医疗领域,尤其涉及一种基于多模态神经网络模型的图文视频化方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]基于多模态神经网络模型的图文视频化是指将静态的图片与文本组建成动态的视频的过程,以用于提升图片与文本的信息传播速度。
[0003]目前,随着深度学习技术的兴起,通过对医疗关键字进行特征提取,并在医疗图片数据库中查找医疗关键字的相关图片的技术,可以快速查询与某一疾病相关的图片内容,从而支持疾病辅助诊断、健康管理等功能,然而,与通过医疗关键字查询图片的技术相比,以医疗图片搜索其他医疗图片的技术稍显逊色,大多数医疗领域的图文的视频化都以人工的方式进行,需要创作者自行搜索相关医疗图片进行剪辑拼接,创作门槛较高,创作耗时也较长,在医疗文字材料数目多的情况下,效率很低;并且由于大多数创作者对医疗业务不熟练,在对医疗图片与医疗文本进行搭配时往往会出现搭配得不合适的情况。因此,医疗图文的视频化效率较低。

技术实现思路

[0004]本专利技术提供一种基于多模态神经网络模型的图文视频化方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高医疗图文的视频化效率。
[0005]为实现上述目的,本专利技术提供的一种基于多模态神经网络模型的图文视频化方法,包括:
[0006]获取图片资源与初始文本,对所述图片资源进行图片过滤,得到过滤图片,提取所述过滤图片的局部特征,根据所述局部特征,计算所述过滤图片的全局特征;
[0007]利用自然语言处理技术对所述初始文本进行文本切割,得到切割文本,计算所述切割文本的编码特征;
[0008]计算所述全局特征与所述编码特征之间的特征相似度,根据所述特征相似度,确定所述图片资源与所述初始文本之间的图文匹配结果;
[0009]计算所述编码特征的注意力值,根据所述注意力值,确定所述编码特征的语音匹配结果;
[0010]根据所述图文匹配结果与所述语音匹配结果,确定所述图片资源与所述初始文本的视频格式,根据所述视频格式,确定所述图片资源与所述初始文本的图文视频生成结果。
[0011]可选地,所述对所述图片资源进行图片过滤,得到过滤图片,包括:
[0012]配置所述图片资源的过滤类别;
[0013]构建所述过滤类别的过滤编码;
[0014]对所述图片资源进行灰度级转换,得到转换灰度级图片;
[0015]计算所述转换灰度级图片的平均灰度;
[0016]根据所述平均灰度,对所述图片资源进行像素编码,得到编码像素;
[0017]计算所述过滤编码与所述编码像素之间的编码距离;
[0018]根据所述编码距离,确定所述图片资源中的过滤图片。
[0019]可选地,所述提取所述过滤图片的局部特征,包括:
[0020]构造所述过滤图片的检测窗口;
[0021]根据所述检测窗口,利用下述公式计算所述过滤图片的局部差异:
[0022][0023]其中,E(u,v)表示所述过滤图片的局部差异,w(x,y)表示窗口函数,I(x+u,y+v)表示利用所述检测窗口在所述过滤图片中平移之后的过滤图片,u与v表示利用所述检测窗口在所述过滤图片中平移的横纵距离,I(x,y)表示未平移之前的过滤图片;
[0024]计算所述局部差异的泰勒展开结果:
[0025][0026][0027][0028][0029]其中,表示所述泰勒展开结果,w(x,y)表示窗口函数,I(x+u,y+v)表示利用所述检测窗口在所述过滤图片中平移之后的过滤图片,u与v表示利用所述检测窗口在所述过滤图片中平移的横纵距离,I(x,y)表示未平移之前的过滤图片,I
x
与I
y
表示I(x,y)的偏导;
[0030]计算所述泰勒展开结果的特征指数:
[0031][0032][0033][0034]其中,(λ1,λ2)表示所述特征指数,u与v表示利用所述检测窗口在所述过滤图片中平移的横纵距离,I(x,y)表示未平移之前的过滤图片,I
x
与I
y
表示I(x,y)的偏导,M表示对所述泰勒展开结果进行形式转换之后的实对称矩阵,R表示旋转因子,λ1和λ2是指对M对角化处理后的两个正交方向的变化分量;
[0035]配置所述特征指数的特征阈值,根据所述特征指数与所述特征阈值,确定所述过
滤图片的局部特征。
[0036]可选地,所述利用自然语言处理技术对所述初始文本进行文本切割,得到切割文本,包括:
[0037]利用所述自然语言处理技术中的词典表技术构建所述初始文本的文本词典;
[0038]利用所述自然语言处理技术中的中文分词技术对所述初始文本进行随机文本分割,得到随机分割文本;
[0039]将所述随机分割文本与所述文本词典进行文本匹配;
[0040]在所述随机分割文本与所述文本词典文本匹配失败时,返回上述利用所述自然语言处理技术中的中文分词技术对所述初始文本进行随机文本分割,得到随机分割文本的步骤;
[0041]在所述随机分割文本与所述文本词典文本匹配成功时,将所述随机分割文本作为所述切割文本。
[0042]可选地,所述计算所述切割文本的编码特征,包括:
[0043]对所述切割文本进行文本编码,得到编码文本;
[0044]利用下述公式计算所述编码文本的文本词频:
[0045][0046]其中,TF表示所述编码文本的文本词频,n表示编码文本在一篇文章中出现的次数,N表示这篇文章的总编码文本数;
[0047]利用下述公式计算所述编码文本的逆文本词频:
[0048][0049]其中,IDF表示所述编码文本的逆文本词频,P表示全部文章数,M表示包含该词的文章总数;
[0050]根据所述文本词频与所述逆文本词频,利用下述公式计算所述编码文本的特征指数:
[0051]TF

IDF=TF*IDF
[0052]其中,TF

IDF表示所述编码文本的特征指数,TF表示所述编码文本的文本词频,IDF表示所述编码文本的逆文本词频;
[0053]根据所述特征指数,确定所述编码文本的编码特征。
[0054]可选地,所述根据所述特征相似度,确定所述图片资源与所述初始文本之间的图文匹配结果,包括:
[0055]配置所述特征相似度的相似度阈值;
[0056]将所述特征相似度与所述相似度阈值进行大小匹配;
[0057]在所述特征相似度与所述相似度阈值大小匹配成功时,则确定所述图片资源与所述初始文本之间的图文匹配结果为匹配成功;
[0058]在所述特征相似度与所述相似度阈值大小匹配失败时,则确定所述图片资源与所述初始文本之间的图文匹配结果为匹配失败。
[0059]可选地,所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态神经网络模型的图文视频化方法,其特征在于,所述方法包括:获取图片资源与初始文本,对所述图片资源进行图片过滤,得到过滤图片,提取所述过滤图片的局部特征,根据所述局部特征,计算所述过滤图片的全局特征;利用自然语言处理技术对所述初始文本进行文本切割,得到切割文本,计算所述切割文本的编码特征;计算所述全局特征与所述编码特征之间的特征相似度,根据所述特征相似度,确定所述图片资源与所述初始文本之间的图文匹配结果;计算所述编码特征的注意力值,根据所述注意力值,确定所述编码特征的语音匹配结果;根据所述图文匹配结果与所述语音匹配结果,确定所述图片资源与所述初始文本的视频格式,根据所述视频格式,确定所述图片资源与所述初始文本的图文视频生成结果。2.如权利要求1所述的基于多模态神经网络模型的图文视频化方法,其特征在于,所述对所述图片资源进行图片过滤,得到过滤图片,包括:配置所述图片资源的过滤类别;构建所述过滤类别的过滤编码;对所述图片资源进行灰度级转换,得到转换灰度级图片;计算所述转换灰度级图片的平均灰度;根据所述平均灰度,对所述图片资源进行像素编码,得到编码像素;计算所述过滤编码与所述编码像素之间的编码距离;根据所述编码距离,确定所述图片资源中的过滤图片。3.如权利要求1所述的基于多模态神经网络模型的图文视频化方法,其特征在于,所述提取所述过滤图片的局部特征,包括:构造所述过滤图片的检测窗口;根据所述检测窗口,利用下述公式计算所述过滤图片的局部差异:其中,E(u,v)表示所述过滤图片的局部差异,w(x,y)表示窗口函数,I(x+u,y+v)表示利用所述检测窗口在所述过滤图片中平移之后的过滤图片,u与v表示利用所述检测窗口在所述过滤图片中平移的横纵距离,I(x,y)表示未平移之前的过滤图片;计算所述局部差异的泰勒展开结果:计算所述局部差异的泰勒展开结果:计算所述局部差异的泰勒展开结果:
其中,表示所述泰勒展开结果,w(x,y)表示窗口函数,I(x+u,y+v)表示利用所述检测窗口在所述过滤图片中平移之后的过滤图片,u与v表示利用所述检测窗口在所述过滤图片中平移的横纵距离,I(x,y)表示未平移之前的过滤图片,I
x
与I
y
表示I(x,y)的偏导;计算所述泰勒展开结果的特征指数:计算所述泰勒展开结果的特征指数:计算所述泰勒展开结果的特征指数:其中,(λ1,λ2)表示所述特征指数,u与v表示利用所述检测窗口在所述过滤图片中平移的横纵距离,I(x,y)表示未平移之前的过滤图片,I
x
与I
y
表示I(x,y)的偏导,M表示对所述泰勒展开结果进行形式转换之后的实对称矩阵,R表示旋转因子,λ1和λ2是指对M对角化处理后的两个正交方向的变化分量;配置所述特征指数的特征阈值,根据所述特征指数与所述特征阈值,确定所述过滤图片的局部特征。4.如权利要求1所述的基于多模态神经网络模型的图文视频化方法,其特征在于,所述利用自然语言处理技术对所述初始文本进行文本切割,得到切割文本,包括:利用所述自然语言处理技术中的词典表技术构建所述初始文本的文本词典;利用所述自然语言处理技术中的中文分词技术对所述初始文本进行随机文本分割,得到随机分割文本;将所述随机分割文本与所述文本词典进行文本匹配;在所述随机分割文本与所述文本词典文本匹配失败时,返回上述利用所述自然语言处理技术中的中文分词技术对所述初始文本进行随机文本分割,得到随机分割文本的步骤;在所述随机分割文本与所述文本词典文本匹配成功时,将所述随机分割文本作为所述切割文本。5.如...

【专利技术属性】
技术研发人员:唐小初黎铭舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1