音视频数据处理方法、装置、电子设备和介质制造方法及图纸

技术编号:31626564 阅读:15 留言:0更新日期:2021-12-29 19:03
本公开公开了一种音视频数据处理方法、装置、设备、介质和产品,涉及语音技术领域。音视频数据处理方法包括:处理音视频数据,得到第一语音元素集合和针对第一语音元素集合的第一时间信息,将第一语音元素集合与第二语音元素集合进行匹配,其中,第二语音元素集合与文本数据相关联;基于第一语音元素集合和第二语音元素集合之间的匹配结果和第一时间信息,确定针对文本数据的第二时间信息;基于第二时间信息,关联地输出文本数据和音视频数据。关联地输出文本数据和音视频数据。关联地输出文本数据和音视频数据。

【技术实现步骤摘要】
音视频数据处理方法、装置、电子设备和介质


[0001]本公开涉及计算机
,尤其涉及语音
,更具体地,涉及一种音视频数据处理方法、装置、电子设备、介质和程序产品。

技术介绍

[0002]在音视频处理的场景下,通常需要为音视频添加对应的文本,例如在音视频中添加字幕信息。相关技术在为音视频添加文本时,文本的和音视频的匹配度较低、人工成本较高、操作繁琐。

技术实现思路

[0003]本公开提供了一种音视频数据处理方法、装置、电子设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种音视频数据处理方法,包括:处理音视频数据,得到第一语音元素集合和针对所述第一语音元素集合的第一时间信息;将所述第一语音元素集合与第二语音元素集合进行匹配,其中,所述第二语音元素集合与文本数据相关联;基于所述第一语音元素集合和所述第二语音元素集合之间的匹配结果和所述第一时间信息,确定针对所述文本数据的第二时间信息;基于所述第二时间信息,关联地输出所述文本数据和所述音视频数据。
[0005]根据本公开的另一方面,提供了一种音视频数据处理装置,包括:处理模块、匹配模块、确定模块以及输出模块。处理模块,用于处理音视频数据,得到第一语音元素集合和针对所述第一语音元素集合的第一时间信息;匹配模块,用于将所述第一语音元素集合与第二语音元素集合进行匹配,其中,所述第二语音元素集合与文本数据相关联;确定模块,用于基于所述第一语音元素集合和所述第二语音元素集合之间的匹配结果和所述第一时间信息,确定针对所述文本数据的第二时间信息;输出模块,用于基于所述第二时间信息,关联地输出所述文本数据和所述音视频数据。
[0006]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器和与所述至少一个处理器通信连接的存储器。其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的音视频数据处理方法。
[0007]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述的音视频数据处理方法。
[0008]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述的音视频数据处理方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1示意性示出了根据本公开一实施例的音视频数据处理方法和装置的系统架构;
[0012]图2示意性示出了根据本公开一实施例的音视频数据处理方法的流程图;
[0013]图3示意性示出了根据本公开一实施例的音视频数据处理方法的原理图;
[0014]图4A~4B示意性示出了根据本公开一实施例的音视频数据处理方法的示意图;
[0015]图5示意性示出了根据本公开一实施例的音视频数据处理装置的框图;以及
[0016]图6是用来实现本公开实施例的用于执行音视频数据处理的电子设备的框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
[0019]在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
[0020]在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
[0021]本公开的实施例提供了一种音视频数据处理方法。音视频数据处理方法包括:处理音视频数据,得到第一语音元素集合和针对第一语音元素集合的第一时间信息。然后,将第一语音元素集合与第二语音元素集合进行匹配,第二语音元素集合与文本数据相关联,基于第一语音元素集合和第二语音元素集合之间的匹配结果和第一时间信息,确定针对文本数据的第二时间信息。接下来,基于第二时间信息,关联地输出文本数据和音视频数据。
[0022]图1示意性示出了根据本公开一实施例的音视频数据处理方法和装置的系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
[0023]如图1所示,根据该实施例的系统架构100可以包括客户端101、102、103,网络104和服务器105。网络104用以在客户端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0024]用户可以使用客户端101、102、103通过网络104与服务器105交互,以接收或发送消息等。客户端101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏
览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
[0025]客户端101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。本公开实施例的客户端101、102、103例如可以运行应用程序。
[0026]服务器105可以是提供各种服务的服务器,例如对用户利用客户端101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给客户端。另外,服务器105还可以是云服务器,即服务器105具有云计算功能。
[0027]需要说明的是,本公开实施例所提供的音视频数据处理方法可以由服务器105执行。相应地,本公开实施例所提供的音视频数据处理装置可以设置于服务器105中。本公开实施例所提供的音视频数据处理方法也可以由不同于服务器105且能够与客户端101、102本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音视频数据处理方法,包括:处理音视频数据,得到第一语音元素集合和针对所述第一语音元素集合的第一时间信息;将所述第一语音元素集合与第二语音元素集合进行匹配,其中,所述第二语音元素集合与文本数据相关联;基于所述第一语音元素集合和所述第二语音元素集合之间的匹配结果和所述第一时间信息,确定针对所述文本数据的第二时间信息;以及基于所述第二时间信息,关联地输出所述文本数据和所述音视频数据。2.根据权利要求1所述的方法,其中,所述处理音视频数据,得到第一语音元素集合和针对所述第一语音元素集合的第一时间信息包括:从所述音视频数据中提取多个音频帧;处理所述多个音频帧,得到与所述多个音频帧一一对应的多个音频特征;确定与所述多个音频特征一一对应的多个第一语音元素,作为所述第一语音元素集合;以及根据所述音视频数据的时间信息,确定所述多个音频帧中每个音频帧的时间信息作为所述第一时间信息。3.根据权利要求2所述的方法,其中,所述确定与所述多个音频特征一一对应的多个第一语音元素,作为所述第一语音元素集合包括,针对所述多个音频特征中的每个音频特征:确定与所述音频特征对应的多个候选语音元素以及与所述多个候选语音元素对应的多个目标概率,其中,所述多个目标概率中每个目标概率表征所述音频特征的识别结果为对应的候选语音元素的概率;以及基于所述多个目标概率和音频语义信息,从所述多个候选语音元素中确定一个候选语音元素,作为与所述音频特征对应的第一语音元素。4.根据权利要求1或2所述的方法,其中,所述第二语音元素集合包括多个第二语音元素,所述多个第二语音元素中的每个第二语音元素包括至少一个语音状态;所述将所述第一语音元素集合与第二语音元素集合进行匹配包括:将所述第一语音元素集合中的每个第一语音元素与每个语音状态进行匹配。5.根据权利要求4所述的方法,其中,所述基于所述第一语音元素集合和所述第二语音元素之间的匹配结果和所述第一时间信息,确定针对所述文本数据的第二时间信息包括:针对与每个语音状态匹配的第一语音元素,将与所述第一语音元素对应的第一时间信息,确定为针对每个语音状态的时间信息;将针对每个语音状态的时间信息,确定为与所述语音状态对应的第二语音元素的时间信息;以及基于针对所述第二语音元素的时间信息,确定针对所述文本数据的第二时间信息。6.根据权利要求1

5中任意一项所述的方法,其中,所述基于所述第二时间信息,关联地输出所述文本数据和所述音视频数据包括:基于所述第二时间信息,将所述文本数据作为所述音视频数据的字幕数据进行输出。7.根据权利要求1

6中任意一项所述的方法,其中,所述第一语音元素集合中的第一语音元素包括音素,所述第二语音元素集合中的第二语音元素包括音素。
8.一种音视频数据处理装置,包括:处理模块,用于处理音视频数据,得到第一语音元素集合和针对所述第一语音元素集合的第一时间信息;匹配模块,用于将所述第一语音元素集合与第二语音元素集合进行匹配,其中,所述第二语音元素集合与文本数据相关联;确定模块,用于基...

【专利技术属性】
技术研发人员:吴悦曹溪语李晋芳陈进生王正宜黄正伟郑天悦毕影全张晶秦志伟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1