当前位置: 首页 > 专利查询>四川大学专利>正文

一种音频和幻灯片内容对齐方法技术

技术编号:26767801 阅读:35 留言:0更新日期:2020-12-18 23:45
本发明专利技术公开了一种音频和幻灯片内容对齐方法,包括S1、获取若干演讲视频和对应于演讲视频的幻灯片文档,并对演讲视频和幻灯片数据进行筛选、清洗;S2、根据幻灯片翻页时间对演讲视频进行切片、并转换为音频;S3、对切片后的音频数据进行预处理,提取幻灯片信息,得到处理后的音频数据和幻灯片数据;S4、将处理后的音频数据和幻灯片数据进行配对,并将配对后的数据按比例划分为训练集和验证集;S5、构建音频幻灯片对齐神经网络模型,并利用训练集对神经网络进行训练,得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型;S6、将演讲音频和幻灯片输入神经网络模型,神经网络模型根据演讲的音频自动对齐幻灯片文档。

【技术实现步骤摘要】
一种音频和幻灯片内容对齐方法
本专利技术属于幻灯片的
,具体涉及一种音频和幻灯片内容对齐方法。
技术介绍
幻灯片是在办公软件上创建的演示文稿,允许用户为演示文稿添加文字、音频、视频等内容。它被认为是一种多媒体技术,是现代社会非常重要的内容共享和展示工具。现代社会的工作学习中,使用幻灯片进行内容分享与展示的频率日益增加,幻灯片展示也成为了交流和展示的重要途径。在互联网视频网站上各类演讲视频和上课视频层出不穷,数量庞大。由于目前没有有效的将多个模态信息的融合对齐方法,导致目前没有根据演讲者音频和幻灯片内容对齐的方法,导致用户观看视频时,视频内容没有根据幻灯片进行分段,内容结构不够简洁明了,想要快速拖动视频时不够便捷。目前,市面上还没有出现针对于幻灯片和演讲视频或语音的对齐方法。其他尚存多模态对齐方法只是单一的多模态数据的对齐或者融合,不能适应幻灯片数据的特点以及演讲的内容和幻灯片数据的对应关系,导致各类网站对演讲视频或课堂视频进行展示的时候,不能按照幻灯片内容对演讲视频或语音的时序进行分割。
技术实现思路
本文档来自技高网
...

【技术保护点】
1.一种音频和幻灯片内容对齐方法,其特征在于,包括:/nS1、获取若干演讲视频和对应于演讲视频的幻灯片文档,并对演讲视频和幻灯片数据进行筛选、清洗;/nS2、根据幻灯片翻页时间对演讲视频进行切片、并转换为音频;/nS3、对切片后的音频数据进行预处理,提取幻灯片信息,得到处理后的音频数据和幻灯片数据;/nS4、将处理后的音频数据和幻灯片数据进行配对,并将配对后的数据按比例划分为训练集和验证集;/nS5、构建音频幻灯片对齐神经网络模型,并利用训练集对神经网络进行训练,得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型;/nS6、将演讲音频和幻灯片输入神经网络模型,神经网络模型根据演讲的音频...

【技术特征摘要】
1.一种音频和幻灯片内容对齐方法,其特征在于,包括:
S1、获取若干演讲视频和对应于演讲视频的幻灯片文档,并对演讲视频和幻灯片数据进行筛选、清洗;
S2、根据幻灯片翻页时间对演讲视频进行切片、并转换为音频;
S3、对切片后的音频数据进行预处理,提取幻灯片信息,得到处理后的音频数据和幻灯片数据;
S4、将处理后的音频数据和幻灯片数据进行配对,并将配对后的数据按比例划分为训练集和验证集;
S5、构建音频幻灯片对齐神经网络模型,并利用训练集对神经网络进行训练,得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型;
S6、将演讲音频和幻灯片输入神经网络模型,神经网络模型根据演讲的音频自动对齐幻灯片文档。


2.根据权利要求1所述的音频和幻灯片内容对齐方法,其特征在于,所述S2中根据幻灯片翻页时间对演讲视频进行切片并转换为音频,包括:
人工将视频进行切片,保留视频中的音频数据,使得幻灯片上的每一页内容对应到切片后的一段音频。


3.根据权利要求1所述的音频和幻灯片内容对齐方法,其特征在于,所述S3中对切片后的音频数据进行预处理,包括:
对获取的音频数据进行归一化处理:



其中,是归一化处理之后的音频数据,xw是处理前的音频数据,μ为音频数据的平均值,σ为音频数据的标准差。


4.根据权利要求1所述的音频和幻灯片内容对齐方法,其特征在于:所述S3中提取幻灯片信息,包括:
若幻灯片数据为文字,则直接记录文字信息;
若幻灯片数据为图像,则将图像数据输入图像理解网络和OCR文字识别系统得到文字说明和OCR识别结果,并记录文字说明和OCR识别结果;
若幻灯片数据为非文字或图像的其他数据,则不作处理。


5.根据权利要求1所述的音频和幻灯片内容对齐方法,其特征在于:所述S4中将处理后的音频数据和幻灯片数据进行配对,并将配对后的数据按比例划分为训练集和验证集,包括:
将处理后的音频数据和处理后的幻灯片数据进行配对,每一页的幻灯片数据对应一段音频录音,幻灯片数据的总数和音频数据总数相等;将配对的数据的80%作为训练集,剩下的20%作为验证集。


6.根据权利要求1所述的音频和幻灯片内容对齐方法,其特征在于,所述S5中构建音频幻灯片对齐神经网络,并利用训练集对神经网络进行训练,得到用于根据幻灯片文档对音频数据进行语义分割的神经网络模型,包括:
S5.1、将训练集乱序;
S5.2、构建神经网络模型,将训练集中处理后的音频数据输入卷积神经网络,通过卷积、池化、全连接,音频中的每一个字得到一个1000维的向量,并记录为va;
va通过解码器得到向量的词义表示da,da为4334维向量,4334是字典大小,每一维的值为字的概率;解码器是一个1000×4334维的矩阵,记录下解码器的运算过程中的权值wd;其中,解码器得到da为:
da=wd·va;
S5.3、根据one-hot编码将每个文字转换为4334维的词向量记解码器权值wd的转置为即将每个字转换为与字音相同大小的1000维向量vw:



S5.4、...

【专利技术属性】
技术研发人员:吕建成邬鸿杰王坚王勇张小菲叶庆
申请(专利权)人:四川大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1