一种基于音视频的图文资源管理系统技术方案

技术编号:28505370 阅读:11 留言:0更新日期:2021-05-19 22:57
本发明专利技术涉及基于音视频的图文资源管理系统,包括:用以提取视频中的音频的音频提取模块,用以识别图文文档中的文字的文字识别模块,用以对所述管理系统反馈的页面进行操作的操作模块和用以对录入的图文文档与所述管理系统内视频进行聚类的中控模块。当采用所述管理系统查阅任一视频时,所述中控模块调取该视频的关键词,并在系统内检索具有相同关键词的图文文档,中控模块根据相同关键词在视频与图文文档内出现的频率计算二者相关度,以判断图文文档是否为视频的相关文件;在进行相关度计算时,所述中控模块根据视频与图文文档的输入时长间隔、关键词重合数量和图文文档的篇幅长度对计算过程进行修正,确保计算结果的准确性。性。性。

【技术实现步骤摘要】
一种基于音视频的图文资源管理系统


[0001]本专利技术涉及电数字处理领域,特别涉及到一种基于音视频的图文资源管理系统。

技术介绍

[0002]随着科技的发展,网络逐渐成为大众获取外部信息的主要手段,人们在通过网络搜索信息的时候,往往很难通过一份文件获取全部所需信息内容,因此,在进行网络浏览时,常常会在屏幕的一侧进行相关信息推荐,然而,传统的网页推荐方法,对于基于内容的网页,该方法能够向用户推荐该网页的相关内容,而对相关内容的判定标准确参差不齐,尤其是一些中小企业的官网,没有相关技术人员进行网络维护导致官网的推荐内容往往达不到使用者的预期,尤其是对于夸种类文件的推荐,更是常常让使用者一头雾水,因此,急需开发一种应用于网络浏览时夸种类文件的推荐系统。

技术实现思路

[0003]为此,本专利技术提供一种基于音视频的图文资源管理系统,用以克服现有技术中网页浏览是夸种类文件内容推送不精准的问题。
[0004]为实现上述目的,本专利技术提供一种基于音视频的图文资源管理系统,包括:音频提取模块,用以提取视频中的音频;文字识别模块,用以识别图文文档中的文字;操作模块,其包括显示单元、选取单元和输入单元,用以对所述管理系统反馈的页面进行操作;中控模块,其分别与所述音频提取模块、所述文字识别模块和所述操作模块相连,用以对录入的图文文档与所述管理系统内视频进行聚类;在使用基于音视频的图文资源管理系统时,首先对录入的视频文件和图文文档进行关键词提取,确定每个视频文件和每个图文文档的关键词;当当采用所述管理系统查阅任一视频时,所述中控模块调取该视频的关键词,并在系统内检索具有相同关键词的图文文档,中控模块根据相同关键词在视频与图文文档内出现的频率计算二者相关度,以判断图文文档是否为视频的相关文件;在进行相关度计算时,所述中控模块根据视频与图文文档的输入时长间隔、关键词重合数量和图文文档的篇幅长度对计算过程进行修正,确保计算结果的准确性。
[0005]进一步地,当向所述管理系统内录入视频a1时,所述音频提取模块提取视频a1中的音频并生成视频a1的音频参数组b1,音频提取模块将音频参数组b1传递至所述中控模块;所述中控模块对音频参数组b1进行分析,提取音频参数组b1中重复次数最多的词语B1‑1、B1‑2、B1‑3、B1‑4、B1‑5,其中,重复性词语B1‑1的重复率为C1‑1,重复性词语B1‑2的重复率为C1‑2,重复性词语B1‑3的重复率为C1‑3,重复性词语B1‑4的重复率为C1‑4,重复性词语B1‑5的重复率为C1‑5,C1‑1≥C1‑2≥C1‑3≥C1‑4≥C1‑5,所述中控模块对重复性词语B1‑1、B1‑2、B1‑3、B1‑4、B1‑5进行整合,生成视频a1的关键词组A1(B1‑1、B1‑2、B1‑3、B1‑4、B1‑5);所述中控模块对所述管理系统
内输入的所有视频进行上述关键词提取操作,生成关键词组矩阵A0,A0(A1,A2,A3

An),其中,A2为视频a2的关键词组,A3为视频a3的关键词组。
[0006]进一步地,当向所述管理系统内录入图文文档d1时,所述文字识别模块对文档d1中的文本进行转码识别生成文本e1,文字识别模块将生成的文本e1传递至所述中控模块,中控模块提取文本e1中重复次数最多的词语E1‑1、E1‑2、E1‑3、E1‑4、E1‑5,其中,重复性词语E1‑1的重复率为F1‑1,重复性词语E1‑2的重复率为F1‑2,重复性词语E1‑3的重复率为F1‑3,重复性词语E1‑4的重复率为F1‑4,重复性词语E1‑5的重复率为F1‑5,F1‑1≥F1‑2≥F1‑3≥F1‑4≥F1‑5,所述中控模块对重复性词语E1‑1、E1‑2、E1‑3、E1‑4、E1‑5进行整合,生成图文文档d1的关键词组D1(E1‑1、E1‑2、E1‑3、E1‑4、E1‑5);所述中控模块对所述管理系统内输入的所有图文文档进行上述关键词提取操作,生成图文文档关键词组矩阵D0,D0(D1,D2,D3

Dm),其中,D2为图文文档d2的关键词组,D3为图文文档d3的关键词组。
[0007]进一步地,当采用所述管理系统查阅视频ai时,i=1,2,3

n,所述中控模块从所述关键词组矩阵A0中调取视频ai的关键词组Ai(B
i
‑1、B
i
‑2、B
i
‑3、B
i
‑4、B
i
‑5),中控模块从图文文档关键词组矩阵E0中检索关键词组Ai中的关键词,当图文文档dj的关键词组Ej中存有不少于一项关键词组Ai内的重复性词语时,j=1,2,3

m,中控模块对图文文档dj进行分析,判断图文文档dj是否为视频ai的关联文档;当所述中控模块判定图文文档dj为视频ai的关联文档时,中控模块将图文文档dj的链接投放到所述显示单元的相关推荐处;当所述中控模块判定图文文档dj不为视频ai的关联文档时,中控模块不投放图文文档dj的链接。
[0008]进一步地,当图文文档dj的关键词组Ej中存有一项关键词组Ai内的重复性词语时,所述中控模块计算图文文档dj与视频ai的相关度G1,G1= F
j

k1
×
C
i

p1
×
M其中,k1=1,2,3,4,5,p1=1,2,3,4,5,M为相关度计算补偿参数;当图文文档dj的关键词组Ej中存有二项关键词组Ai内的重复性词语时,所述中控模块计算图文文档dj与视频ai的相关度G2,G2=(F
j

k1
×
C
i

p1
+ F
j

k2
×
C
i

p2

×
M其中,k2=1,2,3,4,5,p2=1,2,3,4,5;当图文文档dj的关键词组Ej中存有三项关键词组Ai内的重复性词语时,所述中控模块计算图文文档dj与视频ai的相关度G3,G3=(F
j

k1
×
C
i

p1
+ F
j

k2
×
C
i

p2
+ F
j

k3
×
C
i

p3

×
M其中,k3=1,2,3,4,5,p3=1,2,3,4,5;当图文文档dj的关键词组Ej中存有四项关键词组Ai内的重复性词语时,所述中控模块计算图文文档dj与视频ai的相关度G4,G4=(F
j

k1
×
C
i

p1
+ F
j

k2
×
C
i

p本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音视频的图文资源管理系统,其特征在于,包括:音频提取模块,用以提取视频中的音频;文字识别模块,用以识别图文文档中的文字;操作模块,其包括显示单元、选取单元和输入单元,用以对所述管理系统反馈的页面进行操作;中控模块,其分别与所述音频提取模块、所述文字识别模块和所述操作模块相连,用以对录入的图文文档与所述管理系统内视频进行聚类;在使用基于音视频的图文资源管理系统时,首先对录入的视频文件和图文文档进行关键词提取,确定每个视频文件和每个图文文档的关键词;当采用所述管理系统查阅任一视频时,所述中控模块调取该视频的关键词,并在系统内检索具有相同关键词的图文文档,中控模块根据相同关键词在视频与图文文档内出现的频率计算二者相关度,以判断图文文档是否为视频的相关文件;在进行相关度计算时,所述中控模块根据视频与图文文档的输入时长间隔、关键词重合数量和图文文档的篇幅长度对计算过程进行修正,确保计算结果的准确性。2.根据权利要求1所述的基于音视频的图文资源管理系统,其特征在于,当向所述管理系统内录入视频a1时,所述音频提取模块提取视频a1中的音频并生成视频a1的音频参数组b1,音频提取模块将音频参数组b1传递至所述中控模块;所述中控模块对音频参数组b1进行分析,提取音频参数组b1中重复次数最多的词语B1‑1、B1‑2、B1‑3、B1‑4、B1‑5,其中,重复性词语B1‑1的重复率为C1‑1,重复性词语B1‑2的重复率为C1‑2,重复性词语B1‑3的重复率为C1‑3,重复性词语B1‑4的重复率为C1‑4,重复性词语B1‑5的重复率为C1‑5,C1‑1≥C1‑2≥C1‑3≥C1‑4≥C1‑5,所述中控模块对重复性词语B1‑1、B1‑2、B1‑3、B1‑4、B1‑5进行整合,生成视频a1的关键词组A1(B1‑1、B1‑2、B1‑3、B1‑4、B1‑5);所述中控模块对所述管理系统内输入的所有视频进行上述关键词提取操作,生成关键词组矩阵A0,A0(A1,A2,A3

An),其中,A2为视频a2的关键词组,A3为视频a3的关键词组。3.根据权利要求2所述的基于音视频的图文资源管理系统,其特征在于,当向所述管理系统内录入图文文档d1时,所述文字识别模块对文档d1中的文本进行转码识别生成文本e1,文字识别模块将生成的文本e1传递至所述中控模块,中控模块提取文本e1中重复次数最多的词语E1‑1、E1‑2、E1‑3、E1‑4、E1‑5,其中,重复性词语E1‑1的重复率为F1‑1,重复性词语E1‑2的重复率为F1‑2,重复性词语E1‑3的重复率为F1‑3,重复性词语E1‑4的重复率为F1‑4,重复性词语E1‑5的重复率为F1‑5,F1‑1≥F1‑2≥F1‑3≥F1‑4≥F1‑5,所述中控模块对重复性词语E1‑1、E1‑2、E1‑3、E1‑4、E1‑5进行整合,生成图文文档d1的关键词组D1(E1‑1、E1‑2、E1‑3、E1‑4、E1‑5);所述中控模块对所述管理系统内输入的所有图文文档进行上述关键词提取操作,生成图文文档关键词组矩阵D0,D0(D1,D2,D3

Dm),其中,D2为图文文档d2的关键词组,D3为图文文档d3的关键词组。4.根据权利要求3所述的基于音视频的图文资源管理系统,其特征在于,当采用所述管理系统查阅视频ai时,i=1,2,3

n,所述中控模块从所述关键词组矩阵A0中调取视频ai的关键词组Ai(B
i
‑1、B
i
‑2、B
i
‑3、B
i
‑4、B
i
‑5),中控模块从图文文档关键词组矩阵E0中检索关键词组Ai中的关键词,当图文文档dj的关键词组Ej中存有不少于一项关键词组Ai内的重复性词语时,j=1,2,3

m,中控模块对图文文档dj进行分析,判断图文文档dj是否为视频ai的关联
文档;当所述中控模块判定图文文档dj为视频ai的关联文档时,中控模块将图文文档dj的链接投放到所述显示单元的相关推荐处;当所述中控模块判定图文文档dj不为视频ai的关联文档时,中控模块不投放图文文档dj的链接。5.根据权利要求4所述的基于音视频的图文资源管理系统,其特征在于,当图文文档dj的关键词组Ej中存有一项关键词组Ai内的重复性词语时,所述中控模块计算图文文档dj与视频ai的相关度G1,G1= F
j

k1
×
C
i

p1
×
M其中,k1=1,2,3,4,5,p1=1,2,3,4,5,M为相关度计算补偿参数;当图文文档dj的关键词组Ej中存有二项关键词组Ai内的重复性词语时,所述中控模块计算图文文档dj与视频ai的相关度G2,G2=(F
j

k1
×
C
i

p1
+ F
j

k2
×
C
i

p2

×
M其中,k2=1,2,3,4,5,p2=1,2,3,4,5;当图文文档dj的关键词组Ej中存有三项关键词组Ai内的重复性词语时,所述中控模块计算图文文档dj与视频ai的相...

【专利技术属性】
技术研发人员:李鲲李永海
申请(专利权)人:泰德网聚北京科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1