语音播放方法及装置制造方法及图纸

技术编号:13025414 阅读:59 留言:0更新日期:2016-03-16 22:48
本发明专利技术公开了一种语音播放方法及装置,该方法包括:接收待播放语音数据;对所述待播放语音数据进行端点检测,得到各语音段;确定各语音是否为关键信息段;在播放所述待播放语音数据时,根据所述关键信息段对所述待播放语音数据的语速进行调整。利用本发明专利技术,可以帮助用户快速准确地找到所关注的语音段。

【技术实现步骤摘要】

本专利技术涉及语音信号处理领域,具体涉及一种语音播放方法及装置
技术介绍
目前,越来越多的人们喜欢采用录音的形式代替文本的形式记录所需要的信息,如开会时,采用录音的形式将会议内容记录下来,以供后续查阅;记者采访时,将采访内容采用录音的形式记录下来,基于该内容编辑成稿;学生上课时,将听不懂的地方录下来,回去查阅资料等。然而,当录音数据量较大时,人们很难快速准确地找到有价值的录音内容。为了减少录音的播放时间,现有的语音播放方法一般采用端点检测的方法,检测纯噪声段或静音段,将这些语音段略过,以正常语速播放剩下的语音数据。然而,在录音的过程中,经常会将一些不重要的内容一起录制下来,现有方法播放录音时,经常需要用户手动转换成快进形式播放,或直接跳过不重要的内容。尤其是在录音环境不好的情况下,录制的语音数据质量往往较差,为了听清录音内容,用户需要手动重复播放多次,大大降低了用户体验度。
技术实现思路
本专利技术提供一种语音播放方法及装置,以帮助用户快速准确地找到所关注的语音段。为此,本专利技术提供如下技术方案:—种语音播放方法,包括:接收待播放语音数据;对所述待播放语音数据进行端点检测,得到各语音段;根据各语音段的语音内容和/或声纹特征确定所述语音段是否为关键信息段;在播放所述待播放语音数据时,根据所述关键信息段对所述待播放语音数据的语速进行调整。优选地,所述根据各语音段的语音内容确定所述语音段是否为关键信息段包括:对各语音段进行语音识别,得到各语音段的识别文本;根据各语音段的识别文本,确定所述语音段是否为关键信息段。优选地,所述根据各语音段的识别文本,确定所述语音段是否为关键信息段包括:确定各语音段的识别文本是否包含预置的关键词;如果是,则确定所述语音段为关键信息段。优选地,所述根据各语音段的识别文本,确定所述语音段是否为关键信息段包括:采用迭代方式从所有语音段中抽取摘要语音段,并在达到设定的迭代次数后,得到多个摘要语音段,将所述多个摘要语音段作为关键信息段。优选地,所述从所有语音段中抽取摘要语音段包括:计算当前语音段的识别文本与所述待播放语音数据的识别文本的相似度,得到第一计算值;计算所述当前语音段的识别文本与已抽取摘要语音段识别文本的相似度,得到第二计算值;计算第一计算值与第二计算值的差值,得到当前语音段的摘要得分;在得到所有语音段的摘要得分后,选择摘要得分最大的语音段作为摘要语音段。优选地,所述根据各语音段的声纹特征确定所述语音段是否为关键信息段包括:如果所述待播放语音数据包含多个说话人的语音数据,则提取各语音段的声纹特征;根据所述声纹特征及特定说话人的声纹模型,确定所述语音段是否为特定说话人的语音数据;如果是,则确定所述语音段为关键信息段。优选地,所述根据各语音段的声纹特征确定所述语音段是否为关键信息段包括:如果所述待播放语音数据包含多个说话人的语音数据,则通过说话人分离技术,确定主说话人;将所述主说话人的语音段作为关键信息段。优选地,所述根据所述关键信息段对所述待播放语音数据的语速进行调整包括:如果当前语音段为关键信息段,则采用正常语速播放所述当前语音段,否则采用快语速播放所述当前语音段;或者如果当前语音段为关键信息段,则采用慢语速播放所述当前语音段,否则采用正常语速或快语速播放所述当前语音段。优选地,所述方法还包括:获取各语音段的置信度;对所述待播放语音数据的语速进行调整具体为:根据所述关键信息段及各语音段的置信度对所述待播放语音数据的语速进行调整。优选地,所述根据所述关键信息段及各语音段的置信度对所述待播放语音数据的语速进行调整包括:如果当前语音段为关键信息段,则如果其置信度大于第二阈值,则采用快语速播放所述当前语音段,否则采用慢语速播放所述当前语音段;如果当前语音段为非关键信息段,则如果其置信度大于第二阈值,则略过所述当前语音段;如果其置信度小于等于第一阈值,则采用慢语速播放所述当前语音段,所述第一阈值小于所述第二阈值。优选地,所述方法还包括:对各语音段进行语音信号层面的分析,所述语音信号层面的分析包括以下任意一种或多种:音量变化情况、混响情况、噪声情况;在播放所述待播放语音数据时,根据分析结果对所述语音段进行优化处理,所述优化处理包括以下任意一种或多种:(1)如果当前语音段中有连续多帧语音数据的幅值超过上限值,则调低当前语音段的幅值;如果当前语音段中有连续多帧语音数据的幅值低于下限值,则调高当前语音段的幅值;(2)如果当前语音段的混响时间超过阈值,则对当前语音段进行混响消除;(3)如果当前语音段的信噪比小于信噪比阈值,则对当前语音段进行去噪处理。—种语音播放装置,包括:接收模块,用于接收待播放语音数据;端点检测模块,用于对所述待播放语音数据进行端点检测,得到各语音段;关键信息段确定模块,包括第一确定模块和/或第二确定模块,所述第一确定模块用于根据各语音段的语音内容确定所述语音段是否为关键信息段,所述第二确定模块用于根据各语音段的声纹特征确定所述语音段是否为关键信息段;播放模块,用于播放所述待播放语音数据;语速调整模块,用于在所述播放模块播放所述待播放语音数据时,根据所述关键信息段对所述待播放语音数据的语速进行调整。优选地,所述第一确定模块包括:语音识别单元,用于对各语音段进行语音识别,得到各语音段的识别文本;确定单元,用于根据各语音段的识别文本,确定所述语音段是否为关键信息段。优选地,所述确定单元,具体用于确定各语音段的识别文本是否包含预置的关键词;如果是,则确定所述语音段为关键信息段。优选地,所述确定单元包括:迭代次数设定子单元,用于设置迭代次数;摘要抽取子单元,用于采用迭代方式从所有语音段中抽取摘要语音段;判断子单元,用于判断是否达到设定的迭代次数,并在达到设定的迭代次数后,触发所述摘要抽取子单元停止迭代过程;关键信息段获取子单元,用于在所述摘要抽取子单元停止迭代过程后,获取当前所有的摘要语音段,并将其作为关键信息段。优选地,所述摘要抽取子单元包括:第一计算子单元,用于计算当前语音段的识别文本与所述待播放语音数据的识别文本的相似度,得到第一计算值;第二计算子单元,用于计算所述当前语音段的识别文本与已抽取摘要语音段识别文本的相似度,得到第二计算值;差值计算子单元,用于计算第一计算值与第二计算值的差值,得到当前语音段的摘要得分;选择子单元,用于在得到所有语音段的摘要得分后,选择摘要得分最大的语音段作为摘要语音段。优选地,所述第二确定模块包括:声纹特征提取单元,用于在所述待播放语音数据包含多个说话人的语音数据时,提取各语音段的声纹特征;声纹识别单元,用于根据所述声纹特征及特定说话人的声纹模型,确定所述语音段是否为特定说话人的语音数据;如果是,则确定所述语音段为关键信息段。优选地,所述第二确定模块包括:声纹特征提取单元,用于在所述待播放语音数据包含多个说话人的语音数据时,提取各当前第1页1 2 3 4 5 本文档来自技高网...

【技术保护点】
一种语音播放方法,其特征在于,包括:接收待播放语音数据;对所述待播放语音数据进行端点检测,得到各语音段;根据各语音段的语音内容和/或声纹特征确定所述语音段是否为关键信息段;在播放所述待播放语音数据时,根据所述关键信息段对所述待播放语音数据的语速进行调整。

【技术特征摘要】

【专利技术属性】
技术研发人员:高建清王智国胡国平胡郁刘庆峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1