一种分布式音视频处理系统技术方案

技术编号:38010694 阅读:16 留言:0更新日期:2023-06-30 10:31
本发明专利技术公开了一种分布式音视频处理系统,涉及分布式音视频处理技术领域,通过设置口型匹配模型训练模块预先训练出对人员说话的视频数据和音频数据分别进行拼音识别的模型,设置音视频数据收集模块收集待处理的音视频数据,设置音视频分割模块根据音视频数据中音频与视频的匹配情况,对待处理的音视频进行分割,获得若干音视频段,设置分布式处理模块对音视频段进行分布式处理节点的分配,本发明专利技术保证了每个分配到分布式处理节点的每个数据段起始位置和终点位置的时间戳的一致性,从而保证了分布式处理节点处理数据段的完整性。证了分布式处理节点处理数据段的完整性。证了分布式处理节点处理数据段的完整性。

【技术实现步骤摘要】
一种分布式音视频处理系统


[0001]本专利技术涉及分布式音视频处理
,具体是一种分布式音视频处理系统。

技术介绍

[0002]音视频被广泛应用在在线教育、视频会议以及科学研究等领域,音视频数据的实时处理和传输非常重要。然而,由于音视频数据量大、带宽限制和传输延迟等问题,单个服务器难以满足对音视频数据的实时处理和传输需求。因此,分布式音视频处理系统逐渐成为一种重要的技术方案。
[0003]分布式音视频处理系统能够将音视频数据分割成多个小数据段进行处理,并将处理结果进行合并。这种系统可以利用多台服务器的处理能力,大大提高了音视频数据的处理效率和传输速度。但是,由于音视频数据的实时性和时序性,使得每个数据段的时间戳的一致性和完整性非常重要。如果时间戳不一致,可能会导致音视频数据的错位和失真;如果数据段不完整,可能会导致丢失关键信息,影响音视频数据的质量。
[0004]为此,本专利技术提出一种分布式音视频处理系统。

技术实现思路

[0005]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种分布式音视频处理系统,该系统保证了每个分配到分布式处理节点的每个数据段起始位置和终点位置的时间戳的一致性,从而保证了分布式处理节点处理数据段的完整性。
[0006]为实现上述目的,本专利技术提出一种分布式音视频处理系统,包括口型匹配模型训练模块、音视频数据收集模块、音视频分割模块以及分布式处理模块;其中,各个模块之间通过有线和/或无线网络方式连接;其中,所述口型匹配模型训练模块主要用于预先训练出对测试人员说话的视频数据和音频数据分别进行拼音识别的模型;所述口型匹配模型训练模块训练出对测试人员说话的视频数据和音频数据分别进行拼音识别的模型包括以下步骤:步骤S1:预先收集拼音集合;所述拼音集合包括所有表示汉字读音的拼音;步骤S2:音频捕捉设备和视频捕捉设备在若干测试人员根据拼音集合中的每个拼音进行朗读时,同步收集音频数据和视频数据,并将音频数据和视频数据进行标注;步骤S3:对每个音频数据进行特征提取,获得音频数据的音频特征向量,并训练出根据音频特征向量识别对应拼音的机器学习模型;将该机器学习模型标记为M1;步骤S4:使用目标识别算法识别视频数据的每帧图像中的人体嘴部,并截取每帧图像中的人体嘴部图像,按照视频中每帧图像的帧顺序,将人体嘴部图像按视频数据的帧率组合为口型动作视频;步骤S5:根据口型动作视频,输入至动作识别神经网络模型中,对动作识别神经网络模型进行训练,获得根据口型动作视频识别对应拼音的动作识别神经网络模型M2;
对动作识别神经网络模型进行训练的方式为:所述动作识别神经网络模型以口型动作视频作为输入,以预测的标注为输出,以口型动作视频的真实标注为预测目标,以预测的标注与真实标注的预测准确率作为训练目标;对动作识别神经网络模型进行训练,直至预测准确率达到预设的准确率阈值时,停止训练;将该动作识别神经网络模型标记为M2;所述口型匹配模型训练模块将机器学习模型M1和动作识别神经网络模型M2发送至音视频分割模块;其中,所述音视频数据收集模块主要用于收集待处理的音视频数据;所述音视频数据收集模块收集待处理的音视频数据的方式为:通过音频捕获设备和视频捕获设备,对待捕获的音频和视频画面进行捕获,获得对应的音频数据和视频数据,并获取音频数据的采样率以及视频数据的帧率;将音频数据、视频数据、音频数据的采样率以及视频数据的帧率标记为待处理的音视频数据;所述音视频数据收集模块将待处理的音视频数据发送至音视频分割模块;其中,所述音视频分割模块主要用于根据音视频数据中音频与视频的匹配情况,对待处理的音视频进行分割,获得若干音视频段;所述音视频分割模块对待处理的音视频进行分割,获得若干音视频段包括以下步骤:步骤P1:数据处理后台根据参考时钟,将音频数据和视频数据的起始位置打上相同的初始时间戳;将音频数据的采样率标记为v,将视频数据的帧率标记为f,并定义变量i,其中i=1;步骤P2:根据实际经验预设帧采样周期T,对视频数据每隔帧采样周期T依次进行采样;对于每次采样获得帧对应的图像,使用目标识别算法识别图像中是否存在人的嘴部,若存在人的嘴部,则获取该帧的上一帧或下一帧图像,并通过图像比对技术判断嘴部的口型在当前帧、当前帧的上一帧与当前帧的下一帧中是否一致,若口型一致,则重复执行步骤P2;若口型存在至少一帧不一致,则转至步骤P3;步骤P3:从视频数据的当前帧的位置与上一轮帧采样周期采样的帧的位置的帧区间,采用二分法进行查找出匹配帧,其中匹配帧是指在所述帧区间中首次出现人嘴部,且嘴部在该帧的上一帧、该帧以及该帧的下一帧内出现口型不一致的帧,将匹配帧在视频数据的所有帧中的位置标记为Pi,并将i更新为i+1;步骤P4:计算第Pi帧在视频数据中的视频时长Yi,其中视频时长Yi的计算公式为,预设误差时间阈值w;查找音频数据中的匹配采样点位置Ci,其中,匹配采样点位置Ci的计算公式为Ci=(Yi

w)*v;步骤P5:将音频数据从匹配采样点位置Ci,视频数据从第Pi帧位置进行口型匹配,获得音频数据中口型匹配位置Ki;其中,所述口型匹配的方式为:
预先设置拼音匹配数量N以及语速周期x1;基于语速周期x1计算出视频遍历周期x2,其中视频遍历周期x2=x1*f;基于语速周期x1计算出音频遍历周期x3,其中音频遍历周期x3的计算公式为x3=x1*v;语速周期x1为视频人员说的每个字的语速,在正常情况下,视频数据和音频数据中读出每个字的时间是一致的;对视频数据从第Pi帧开始,以视频遍历周期x2帧为周期,截取出N段长度为x2的视频数据,并在每个截取的视频数据中,获取每帧图像中的嘴部图像并将嘴部图像组成口型匹配视频,使用动作识别神经网络模型M2从口型匹配视频中识别出拼音,共识别出N个拼音,将N个拼音按口型匹配视频的顺序进行排序;预先设置匹配次数阈值R;对音频数据从匹配采样点位置Ci开始,对后续音频数据以音频遍历周期x3个采样点为周期进行截取,获得若干音频段,并对若干音频段数据进行特征提取,再使用机器学习模型M1识别音频段中的拼音,直至识别的所有拼音中按顺序匹配到根据口型匹配视频识别出的N个拼音或遍历的音频段的数量大于匹配次数阈值R时,停止遍历;若遍历的采样点数量大于匹配次数阈值R,则向数据处理后台发送音视频异常预警信号;若按顺序匹配到根据口型匹配视频识别出的N个拼音,则获取N个拼音中第一个拼音对应音频段的第一个采样点的位置;则该第一个采样点为音频数据中口型匹配位置Ki;步骤P6:若i=1,则将音频数据从起始位置到口型匹配位置Ki的音频段分割,将视频数据从起始位置到第Pi帧的视频段进行分割;若i>1,则将音频数据从口型匹配位置K(i

1)到口型匹配位置Ki的音频段分割,将视频数据从帧P(i

1)到帧Pi的视频段进行分割;并继续执行步骤P2;步骤P7:将音频段和视频段按截取的顺序进行组合,依次获得组合后的音视频段;即将第i段音频段与第i段视频段组合为第i段音视频段;所述音视频分割模块将所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式音视频处理系统,其特征在于,包括口型匹配模型训练模块、音视频数据收集模块、音视频分割模块以及分布式处理模块;其中,各个模块之间通过有线和/或无线网络方式连接;所述口型匹配模型训练模块用于预先训练出对测试人员说话的视频数据和音频数据分别进行拼音识别的模型,并将训练得到的模型发送至音视频分割模块;所述音视频数据收集模块用于收集待处理的音视频数据,并将待处理的音视频数据发送至音视频分割模块;所述音视频分割模块用于根据音视频数据中音频与视频的匹配情况,对待处理的音视频进行分割,获得若干音视频段,将所有音视频段发送至分布式处理模块;所述分布式处理模块用于对音视频段进行分布式处理节点的分配。2.根据权利要求1所述的一种分布式音视频处理系统,其特征在于,所述口型匹配模型训练模块用于预先训练出对测试人员说话的视频数据和音频数据分别进行拼音识别的模型,包括以下步骤:步骤S1:预先收集拼音集合;所述拼音集合包括所有表示汉字读音的拼音;步骤S2:音频捕捉设备和视频捕捉设备在若干测试人员根据拼音集合中的每个拼音进行朗读时,同步收集音频数据和视频数据,并将音频数据和视频数据进行标注;步骤S3:对每个音频数据进行特征提取,获得音频数据的音频特征向量,并训练出根据音频特征向量识别对应拼音的机器学习模型;将该机器学习模型标记为M1;步骤S4:使用目标识别算法识别视频数据的每帧图像中的人体嘴部,并截取每帧图像中的人体嘴部图像,按照视频中每帧图像的帧顺序,将人体嘴部图像按视频数据的帧率组合为口型动作视频;步骤S5:根据口型动作视频,输入至动作识别神经网络模型中,对动作识别神经网络模型进行训练,获得根据口型动作视频识别对应拼音的动作识别神经网络模型M2。3.根据权利要求2所述的一种分布式音视频处理系统,其特征在于,对动作识别神经网络模型进行训练的方式为:所述动作识别神经网络模型以口型动作视频作为输入,以预测的标注为输出,以口型动作视频的真实标注为预测目标,以预测的标注与真实标注的预测准确率作为训练目标;对动作识别神经网络模型进行训练,直至预测准确率达到预设的准确率阈值时,停止训练;将该动作识别神经网络模型标记为M2。4.根据权利要求3所述的一种分布式音视频处理系统,其特征在于,所述收集待处理的音视频数据的方式为:通过音频捕获设备和视频捕获设备,对待捕获的音频和视频画面进行捕获,获得对应的音频数据和视频数据,并获取音频数据的采样率以及视频数据的帧率;将音频数据、视频数据、音频数据的采样率以及视频数据的帧率标记为待处理的音视频数据。5.根据权利要求4所述的一种分布式音视频处理系统,其特征在于,所述对待处理的音视频进行分割,获得若干音视频段,包括以下步骤:步骤P1:数据处理后台根据参考时钟,将音频数据和视频数据的起始位置打上相同的初始时间戳;将音频数据的采样率标记为v,将视频数据的帧率标记为f,并定义变量i,其中
i=1;步骤P2:预设帧采样周期T,对视频数据每隔帧采样周期T依次进行采样;对于每次采样获得帧对应的图像,使用目标识别算法识别图像中是否存在人的嘴部,若存在人的嘴部,通过图像比对技术判断嘴部的口型在当前帧、当...

【专利技术属性】
技术研发人员:张巧霞宗建新刘恋恋孟书铖
申请(专利权)人:江苏弦外音智造科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1