【技术实现步骤摘要】
自动确定音频流中语音字幕的定时窗口
[0001]分案说明
[0002]本申请属于申请日为2016年12月29日的中国专利技术专利申请No.201680081781.9的分案申请。
[0003]所公开的实施例一般涉及用于音频字幕的计算机实现的方法,更具体地,涉及自动确定在音频流中的语音声音的字幕的定时窗口。
技术介绍
[0004]诸如视频流或音频流的许多媒体内容项包括语音声音和非语音声音。对于语音声音(例如,说出的词、演唱的词),可以将字幕添加到内容项,使得可以在不需要听到内容的音频流的情况下消费内容。每天可以将非常大量(例如,数百万)的这样的内容项上载到在线内容系统。但是,并非所有这些内容项都与字幕一起被上载。虽然这些字幕后来可以通过自动语音声音识别系统添加,但是这些字幕的准确性通常非常差。字幕也可以由其他用户(例如,志愿者)添加,但是这些志愿者可能必须手动计时每个字幕的开始和结束时间戳,使得字幕匹配于内容中的语音声音的开始和结束时间戳。这对于用户执行来说可能是不方便的,并且可能妨碍志愿者提供字幕。
【技术保护点】
【技术特征摘要】
1.一种方法,包括:访问包括多个分段的音频数据;通过处理设备确定所述多个分段中的一个或多个分段包括语音声音;识别所述语音声音的时间持续;以及提供与所述语音声音的时间持续相对应的用户界面元素,其中所述用户界面元素指示所述语音声音的开始和结束的估计以及被配置为接收与所述音频数据的所述语音声音相关联的字幕文本。2.根据权利要求1所述的方法,进一步包括:将所述音频数据的所述多个分段输入到用于分类的语音分类器中,其中所述语音分类器生成表示相应分段包括语音声音的出现的可能性的原始分值的集合;基于所述原始分值的集合生成用于所述音频数据的二进制分值,其中所述二进制分值中的一个是基于来自所述音频数据的分段的连续系列的原始分值的聚合而生成的;以及基于所述二进制分值为所述音频数据中的所述语音声音中的一个或多个生成定时窗口,其中所述定时窗口指示在所述音频数据中的一个或多个语音声音的开始时间和结束时间的估计。3.根据权利要求2所述的方法,其中,将所述音频数据的所述多个分段输入到用于分类的一个或多个语音分类器中还包括:将所述音频数据分成所述多个分段,每个分段具有特定的持续时间并且从所述音频数据的起点偏移;使用过滤器模型来过滤所述多个分段中的每个分段的音频信号以产生具有多个频率通道的输出;基于所述过滤器模型的输出识别特征;以及将所述特征输入到机器学习模型中,所述机器学习模型用于确定原始分值,所述原始分值指示在所述音频数据的相应分段中出现所述语音声音的可能性。4.根据权利要求2所述的方法,其中,为所述音频数据生成二进制分值还包括:将聚合函数应用于所述音频数据的所述分段的连续系列的原始分值;基于所述聚合函数的输出生成多个聚合值,所述多个聚合值中的每个聚合值与所述分段的连续系列之一相关联;并且基于所述聚合值生成所述二进制分值,每个二进制分值是基于对应的聚合值是否超过阈值而生成的。5.根据权利要求4所述的方法,其中,所述多个分段中的一个或多个分段是验证数据集的一部分,并且所述方法还包括:计算在所生成的定时窗口和所述验证数据集的基础事实定时窗口之间的总误差量;以及迭代地修改所述阈值以最小化所述误差量。6.根据权利要求1所述的方法,其中,所述用户界面元素包括多个字幕框中的一个,并且所述方法还包括:为所述音频数据生成所述多个字幕框,每个字幕框具有与所生成的定时窗口的开始和结束时间戳相对应的开始时间戳和结束时间戳;以及
存储所述多个字幕框,其中所述字幕框被配置为允许用户在所述字幕框中输入字幕文本。7.根据权利要求6所述的方法,还包括将在时间上彼此相邻的定时窗口的集合连接到单个定时窗口内,其中在所述集合中的每个定时窗口具有短于预定义的最小值的持续时间。8.根据权利要求6所述的方法,还包括将定时窗口划分为多个定时窗口,所述定时窗口包括比预定义的最大值长的持续时间。9.根据权利要求6所述的方法,其中,所述音频数据包括音频流并且还包括:接收来自客户端设备的输入用于所述音频流的字幕的请求;发送所述多个字幕框以用于在所述客户端设备处呈现;接收多个字幕文本条目,每个字幕文本条目与所述多个字幕框中的一个字幕框相关联;以及与相应的字幕框相关联地存储所述多个字幕文本条目。10.根据权利要求9所述的方法,还包括:接收来自客户端设备的呈现与所述音频流相关联的字幕的请求;以及将具有用于所述音频流的相关字幕文本的所述多个字幕框发送到所述客户端设备以在所述客户端设备上呈现。11.根据权利要求2所述的方法,其中,所述开始时间对应于所述二进制分值的从低值到高值的转变,并且所述结束时间对应于所述二进制分值的从高值到低值的后续转变。12.一种计算机程序产品,包括其上编码有指令的非暂时性计算机可读存储介质,所述指令在由处理器执行时使得所述处理器:访问包括多个分段的音频数据;确定所述多个分段中的一个或多个分段包括语音声音;识别所述语音声音的时间持续;以及提供与所述语音声音的时间持续相对应的用户界面元素,其中所述用户界面元素指示所述语音声音的开始和结束的估计以及被配置为接收与所述音频数据的所述语音声音相关联的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。