一种分布式音视频处理系统技术方案

技术编号：38010694 阅读：16 留言：0更新日期：2023-06-30 10:31

本发明专利技术公开了一种分布式音视频处理系统，涉及分布式音视频处理技术领域，通过设置口型匹配模型训练模块预先训练出对人员说话的视频数据和音频数据分别进行拼音识别的模型，设置音视频数据收集模块收集待处理的音视频数据，设置音视频分割模块根据音视频数据中音频与视频的匹配情况，对待处理的音视频进行分割，获得若干音视频段，设置分布式处理模块对音视频段进行分布式处理节点的分配，本发明专利技术保证了每个分配到分布式处理节点的每个数据段起始位置和终点位置的时间戳的一致性，从而保证了分布式处理节点处理数据段的完整性。证了分布式处理节点处理数据段的完整性。证了分布式处理节点处理数据段的完整性。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式音视频处理系统

[0001]本专利技术涉及分布式音视频处理
，具体是一种分布式音视频处理系统。

技术介绍

[0002]音视频被广泛应用在在线教育、视频会议以及科学研究等领域，音视频数据的实时处理和传输非常重要。然而，由于音视频数据量大、带宽限制和传输延迟等问题，单个服务器难以满足对音视频数据的实时处理和传输需求。因此，分布式音视频处理系统逐渐成为一种重要的技术方案。
[0003]分布式音视频处理系统能够将音视频数据分割成多个小数据段进行处理，并将处理结果进行合并。这种系统可以利用多台服务器的处理能力，大大提高了音视频数据的处理效率和传输速度。但是，由于音视频数据的实时性和时序性，使得每个数据段的时间戳的一致性和完整性非常重要。如果时间戳不一致，可能会导致音视频数据的错位和失真；如果数据段不完整，可能会导致丢失关键信息，影响音视频数据的质量。
[0004]为此，本专利技术提出一种分布式音视频处理系统。

技术实现思路

[0005]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此，本专利技术提出一种分布式音视频处理系统，该系统保证了每个分配到分布式处理节点的每个数据段起始位置和终点位置的时间戳的一致性，从而保证了分布式处理节点处理数据段的完整性。
[0006]为实现上述目的，本专利技术提出一种分布式音视频处理系统，包括口型匹配模型训练模块、音视频数据收集模块、音视频分割模块以及分布式处理模块；其中，各个模块之间通过有线和/或无线网络方式连接；其中，所述口型匹配...

【技术保护点】

【技术特征摘要】
1.一种分布式音视频处理系统，其特征在于，包括口型匹配模型训练模块、音视频数据收集模块、音视频分割模块以及分布式处理模块；其中，各个模块之间通过有线和/或无线网络方式连接；所述口型匹配模型训练模块用于预先训练出对测试人员说话的视频数据和音频数据分别进行拼音识别的模型，并将训练得到的模型发送至音视频分割模块；所述音视频数据收集模块用于收集待处理的音视频数据，并将待处理的音视频数据发送至音视频分割模块；所述音视频分割模块用于根据音视频数据中音频与视频的匹配情况，对待处理的音视频进行分割，获得若干音视频段，将所有音视频段发送至分布式处理模块；所述分布式处理模块用于对音视频段进行分布式处理节点的分配。2.根据权利要求1所述的一种分布式音视频处理系统，其特征在于，所述口型匹配模型训练模块用于预先训练出对测试人员说话的视频数据和音频数据分别进行拼音识别的模型，包括以下步骤：步骤S1：预先收集拼音集合；所述拼音集合包括所有表示汉字读音的拼音；步骤S2：音频捕捉设备和视频捕捉设备在若干测试人员根据拼音集合中的每个拼音进行朗读时，同步收集音频数据和视频数据，并将音频数据和视频数据进行标注；步骤S3：对每个音频数据进行特征提取，获得音频数据的音频特征向量，并训练出根据音频特征向量识别对应拼音的机器学习模型；将该机器学习模型标记为M1；步骤S4：使用目标识别算法识别视频数据的每帧图像中的人体嘴部，并截取每帧图像中的人体嘴部图像，按照视频中每帧图像的帧顺序，将人体嘴部图像按视频数据的帧率组合为口型动作视频；步骤S5：根据口型动作视频，输入至动作识别神经网络模型中，对动作识别神经网络模型进行训练，获得根据口型动作视频识别对应拼音的动作识别神经网络模型M2。3.根据权利要求2所述的一种分布式音视频处理系统，其特征在于，对动作识别神经网络模型进行训练的方式为：所述动作识别神经网络模型以口型动作视频作为输入，以预测的标注为输出，以口型动作视频的真实标注为预测目标，以预测的标注与真实标注的预测准确率作为训练目标；对动作识别神经网络模型进行训练，直至预测准确率达到预设的准确率阈值时，停止训练；将该动作识别神经网络模型标记为M2。4.根据权利要求3所述的一种分布式音视频处理系统，其特征在于，所述收集待处理的音视频数据的方式为：通过音频捕获设备和视频捕获设备，对待捕获的音频和视频画面进行捕获，获得对应的音频数据和视频数据，并获取音频数据的采样率以及视频数据的帧率；将音频数据、视频数据、音频数据的采样率以及视频数据的帧率标记为待处理的音视频数据。5.根据权利要求4所述的一种分布式音视频处理系统，其特征在于，所述对待处理的音视频进行分割，获得若干音视频段，包括以下步骤：步骤P1：数据处理后台根据参考时钟，将音频数据和视频数据的起始位置打上相同的初始时间戳；将音频数据的采样率标记为v，将视频数据的帧率标记为f，并定义变量i，其中
i=1；步骤P2：预设帧采样周期T，对视频数据每隔帧采样周期T依次进行采样；对于每次采样获得帧对应的图像，使用目标识别算法识别图像中是否存在人的嘴部，若存在人的嘴部，通过图像比对技术判断嘴部的口型在当前帧、当...

【专利技术属性】
技术研发人员：张巧霞，宗建新，刘恋恋，孟书铖，
申请(专利权)人：江苏弦外音智造科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人