音视频数据处理方法、装置、电子设备和介质制造方法及图纸

技术编号：31626564 阅读：15 留言：0更新日期：2021-12-29 19:03

本公开公开了一种音视频数据处理方法、装置、设备、介质和产品，涉及语音技术领域。音视频数据处理方法包括：处理音视频数据，得到第一语音元素集合和针对第一语音元素集合的第一时间信息，将第一语音元素集合与第二语音元素集合进行匹配，其中，第二语音元素集合与文本数据相关联；基于第一语音元素集合和第二语音元素集合之间的匹配结果和第一时间信息，确定针对文本数据的第二时间信息；基于第二时间信息，关联地输出文本数据和音视频数据。关联地输出文本数据和音视频数据。关联地输出文本数据和音视频数据。

全部详细技术资料下载

【技术实现步骤摘要】
音视频数据处理方法、装置、电子设备和介质

[0001]本公开涉及计算机
，尤其涉及语音
，更具体地，涉及一种音视频数据处理方法、装置、电子设备、介质和程序产品。

技术介绍

[0002]在音视频处理的场景下，通常需要为音视频添加对应的文本，例如在音视频中添加字幕信息。相关技术在为音视频添加文本时，文本的和音视频的匹配度较低、人工成本较高、操作繁琐。

技术实现思路

[0003]本公开提供了一种音视频数据处理方法、装置、电子设备、存储介质以及程序产品。
[0004]根据本公开的一方面，提供了一种音视频数据处理方法，包括：处理音视频数据，得到第一语音元素集合和针对所述第一语音元素集合的第一时间信息；将所述第一语音元素集合与第二语音元素集合进行匹配，其中，所述第二语音元素集合与文本数据相关联；基于所述第一语音元素集合和所述第二语音元素集合之间的匹配结果和所述第一时间信息，确定针对所述文本数据的第二时间信息；基于所述第二时间信息，关联地输出所述文本数据和所述音视频数据。
[0005]根据本公开的另一方面，提供了一种音视频数据处理装置，包括：处理模块、匹配模块、确定模块以及输出模块。处理模块，用于处理音视频数据，得到第一语音元素集合和针对所述第一语音元素集合的第一时间信息；匹配模块，用于将所述第一语音元素集合与第二语音元素集合进行匹配，其中，所述第二语音元素集合与文本数据相关联；确定模块，用于基于所述第一语音元素集合和所述第二语音元素集合之间的匹配结果和所述第一时间信息，确定针对所述文本...

【技术保护点】

【技术特征摘要】
1.一种音视频数据处理方法，包括：处理音视频数据，得到第一语音元素集合和针对所述第一语音元素集合的第一时间信息；将所述第一语音元素集合与第二语音元素集合进行匹配，其中，所述第二语音元素集合与文本数据相关联；基于所述第一语音元素集合和所述第二语音元素集合之间的匹配结果和所述第一时间信息，确定针对所述文本数据的第二时间信息；以及基于所述第二时间信息，关联地输出所述文本数据和所述音视频数据。2.根据权利要求1所述的方法，其中，所述处理音视频数据，得到第一语音元素集合和针对所述第一语音元素集合的第一时间信息包括：从所述音视频数据中提取多个音频帧；处理所述多个音频帧，得到与所述多个音频帧一一对应的多个音频特征；确定与所述多个音频特征一一对应的多个第一语音元素，作为所述第一语音元素集合；以及根据所述音视频数据的时间信息，确定所述多个音频帧中每个音频帧的时间信息作为所述第一时间信息。3.根据权利要求2所述的方法，其中，所述确定与所述多个音频特征一一对应的多个第一语音元素，作为所述第一语音元素集合包括，针对所述多个音频特征中的每个音频特征：确定与所述音频特征对应的多个候选语音元素以及与所述多个候选语音元素对应的多个目标概率，其中，所述多个目标概率中每个目标概率表征所述音频特征的识别结果为对应的候选语音元素的概率；以及基于所述多个目标概率和音频语义信息，从所述多个候选语音元素中确定一个候选语音元素，作为与所述音频特征对应的第一语音元素。4.根据权利要求1或2所述的方法，其中，所述第二语音元素集合包括多个第二语音元素，所述多个第二语音元素中的每个第二语音元素包括至少一个语音状态；所述将所述第一语音元素集合与第二语音元素集合进行匹配包括：将所述第一语音元素集合中的每个第一语音元素与每个语音状态进行匹配。5.根据权利要求4所述的方法，其中，所述基于所述第一语音元素集合和所述第二语音元素之间的匹配结果和所述第一时间信息，确定针对所述文本数据的第二时间信息包括：针对与每个语音状态匹配的第一语音元素，将与所述第一语音元素对应的第一时间信息，确定为针对每个语音状态的时间信息；将针对每个语音状态的时间信息，确定为与所述语音状态对应的第二语音元素的时间信息；以及基于针对所述第二语音元素的时间信息，确定针对所述文本数据的第二时间信息。6.根据权利要求1
‑
5中任意一项所述的方法，其中，所述基于所述第二时间信息，关联地输出所述文本数据和所述音视频数据包括：基于所述第二时间信息，将所述文本数据作为所述音视频数据的字幕数据进行输出。7.根据权利要求1
‑
6中任意一项所述的方法，其中，所述第一语音元素集合中的第一语音元素包括音素，所述第二语音元素集合中的第二语音元素包括音素。
8.一种音视频数据处理装置，包括：处理模块，用于处理音视频数据，得到第一语音元素集合和针对所述第一语音元素集合的第一时间信息；匹配模块，用于将所述第一语音元素集合与第二语音元素集合进行匹配，其中，所述第二语音元素集合与文本数据相关联；确定模块，用于基...

【专利技术属性】
技术研发人员：吴悦，曹溪语，李晋芳，陈进生，王正宜，黄正伟，郑天悦，毕影全，张晶，秦志伟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人