用于确定音频语句的边界的方法和装置制造方法及图纸

技术编号：21118000 阅读：40 留言：0更新日期：2019-05-16 09:41

本公开实施例公开了用于确定音频语句的边界的方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：将视频资源中的至少三个连续语句拼接成组合句，根据视频资源的字幕文件从视频资源的音频文件中提取出组合句对应的音频信号，将组合句对应的音频信号输入解码器进行解码，得到组合句对应的音素标签序列，从字幕文件中提取出组合句中的目标语句对应的文本，将目标语句对应的文本转换为声韵母序列，目标语句为组成组合句的至少三个连续语句中不在组合句边缘的语句，以及利用目标语句对应的声韵母序列对组合句对应的音素标签序列进行匹配，以确定目标语句的语音边界。该实施方式实现了对视频资源中的语句的音频的精准切分。

A Method and Device for Determining the Boundary of Audio Statements

全部详细技术资料下载

【技术实现步骤摘要】
用于确定音频语句的边界的方法和装置
本公开实施例涉及计算机
，具体涉及语音
，尤其涉及用于确定音频语句的边界的方法和装置。
技术介绍
近年来，语音识别技术飞速发展，尤其是基于深度学习的语音识别技术使得语音识别性能得到了大幅度的提升。连续语句的语音识别是语音识别技术中的一个重要应用场景。通常对于连续语句，首先需要划分各句子的边界，确定每个语句对应的音频信号的边界，然后分别对划分得到的每个语句进行识别。视频资源中通常包含具有对应文本信息的多个语句的音频信息。并且，视频资源的字幕通常会标注每个语句的起始时间。但是字幕文件的生成通常会考虑观看者的观看习惯或阅读速度，字幕出现的时间与对应语句的音频的播放时间可能存在差异。
技术实现思路
本公开的实施例提出了用于确定音频语句的边界的方法、装置、电子设备和计算机可读介质。第一方面，本公开的实施例提供了一种用于确定音频语句的边界的方法，包括：将视频资源中的至少三个连续语句拼接成组合句；根据视频资源的字幕文件从视频资源的音频文件中提取出组合句对应的音频信号；将组合句对应的音频信号输入解码器进行解码，得到组合句对应的音素标签序...

【技术保护点】
1.一种用于确定音频语句的边界的方法，包括：将视频资源中的至少三个连续语句拼接成组合句；根据所述视频资源的字幕文件从所述视频资源的音频文件中提取出所述组合句对应的音频信号；将所述组合句对应的音频信号输入解码器进行解码，得到所述组合句对应的音素标签序列；从所述字幕文件中提取出所述组合句中的目标语句对应的文本，将所述目标语句对应的文本转换为声韵母序列，所述目标语句为组成所述组合句的至少三个连续语句中不在所述组合句边缘的语句；以及利用所述目标语句对应的声韵母序列对所述组合句对应的音素标签序列进行匹配，以确定所述目标语句的语音边界。

【技术特征摘要】
1.一种用于确定音频语句的边界的方法，包括：将视频资源中的至少三个连续语句拼接成组合句；根据所述视频资源的字幕文件从所述视频资源的音频文件中提取出所述组合句对应的音频信号；将所述组合句对应的音频信号输入解码器进行解码，得到所述组合句对应的音素标签序列；从所述字幕文件中提取出所述组合句中的目标语句对应的文本，将所述目标语句对应的文本转换为声韵母序列，所述目标语句为组成所述组合句的至少三个连续语句中不在所述组合句边缘的语句；以及利用所述目标语句对应的声韵母序列对所述组合句对应的音素标签序列进行匹配，以确定所述目标语句的语音边界。2.根据权利要求1所述的方法，其中，所述方法还包括：根据所述目标语句的语音边界，从所述音频文件中提取出所述目标语句的音频信号；将所述目标语句对应的文本作为所述目标语句的音频信号对应的文本标注信息，生成语音训练数据。3.根据权利要求1所述的方法，其中，所述根据所述视频资源的字幕文件从所述视频资源的音频文件中提取出所述组合句对应的音频信号，包括：基于所述字幕文件中各语句的起始时间，确定所述组合句的起始时间和结束时间；根据所述组合句的起始时间和结束时间从所述音频文件中确定出所述组合句对应的音频信号。4.根据权利要求3所述的方法，其中，所述基于所述字幕文件中各语句的起始时间，确定所述组合句的起始时间和结束时间，包括：基于所述字幕文件，获取所述组合句中的第一个语句的起始时间作为所述组合句的起始时间，获取所述组合句中的最后一个语句的起始时间之后预设时间段的时间作为所述组合句的结束时间。5.根据权利要求3所述的方法，其中，所述基于所述字幕文件中各语句的起始时间，确定所述组合句的起始时间和结束时间，包括：获取所述字幕文件中所述组合句中的第一个语句的起始时间作为所述组合句的起始时间，获取所述字幕文件中所述组合句中的最后一个语句的下一个语句的起始时间作为所述组合句的结束时间。6.根据权利要求1-5任一项所述的方法，其中，所述利用所述目标语句对应的声韵母序列对所述组合句对应的音素标签序列进行匹配，以确定所述目标语句的语音边界，包括：抽取出所述组合句对应的音素标签序列中与所述目标语句对应的声韵母序列匹配的子序列，将所述子序列中的第一个音素标签对应的语音帧确定为所述目标语句的起始帧，将所述子序列中的最后一个音素标签对应的语音帧确定为所述目标语句的结束帧。7.一种用于确定音频语句的边界的装置，包括：拼接单元，被配置为将视频资源中的至少三个连续语句拼接成组合句；提取单元，被配置为根据所述视频资源的字幕文件从所述视频资源的音频文件中提取出所述组合句对应的音频信号；解码单元，被配置为...

【专利技术属性】
技术研发人员：袁胜龙，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人