基频提取方法和装置制造方法及图纸

技术编号:20366679 阅读:29 留言:0更新日期:2019-02-16 18:16
本申请实施例公开了基频提取方法和装置。该方法的一具体实施方式包括:基于待处理语音信号的声学特征,提取待处理语音信号中各语音帧的候选基频点;对语音帧进行清浊音分类,得到各语音帧对应的清浊音类别;基于各语音帧对应的清浊音类别以及预设的基频筛选条件对候选基频点进行修正,并采用动态规划算法从修正后的候选基频点中确定出待处理语音信号的基频序列。该实施方式提升了基频提取的准确性。

【技术实现步骤摘要】
基频提取方法和装置
本申请实施例涉及计算机
,具体涉及语音合成领域,尤其涉及基频提取方法和装置。
技术介绍
语音合成是通过机械或电子的方法产生合成语音的技术。语音合成技术中,需要对文本进行分词、确定文本的读音,预测语音信号的声学特征,并根据预测出的声学特征合成语音信号。基频是基音周期的倒数,基音周期则是声带每开启和关闭一次的时长。基频是语音合成中重要的声学特征,基频提取的准确与否直接影响语音合成中声学建模的准确性。
技术实现思路
本申请实施例提出了基频提取方法和装置。第一方面,本申请实施例提供了一种基频提取方法,包括:基于待处理语音信号的声学特征,提取待处理语音信号中各语音帧的候选基频点;对语音帧进行清浊音分类,得到各语音帧对应的清浊音类别;基于各语音帧对应的清浊音类别以及预设的基频筛选条件对候选基频点进行修正,并采用动态规划算法从修正后的候选基频点中确定出待处理语音信号的基频序列。在一些实施例中,上述对语音帧进行清浊音分类,得到各语音帧对应的清浊音类别,包括:将提取出的待处理语音信号的声学特征输入已训练的清浊音分类模型,得到待处理语音信号中各语音帧对应的清浊音分类结果。在一些实施例中,上述方法还包括:基于已标注所包含的各语音帧的清浊音类别信息的样本语音信号,训练得出已训练的清浊音分类模型。在一些实施例中,上述基于待处理语音信号的声学特征,提取待处理语音信号中各语音帧的候选基频点,包括:对待处理语音信号进行降采样;对降采样后的待处理语音信号中的语音帧,基于声学特征计算互相关函数的峰值点,根据峰值点确定降采样后的待处理语音信号对应的候选基频点;将降采样后的待处理语音信号对应的候选基频点映射至待处理语音信号中,得到待处理语音信号中各语音帧的候选基频点。在一些实施例中,上述基于各语音帧对应的清浊音类别以及预设的基频筛选条件对候选基频点进行修正,包括:根据各语音帧的候选基频点的分布特征,确定基频候选区间;基于各语音帧的清浊音类别对基频候选区间进行修正,得到修正后的基频候选区间;将不在修正后的基频候选区间中的目标候选基频点替换为目标候选基频点所对应的语音帧中的其他候选基频点,得到修正后的候选基频点。第二方面,本申请实施例提供了一种基频提取装置,包括:提取单元,被配置为基于待处理语音信号的声学特征,提取待处理语音信号中各语音帧的候选基频点;分类单元,被配置为对语音帧进行清浊音分类,得到各语音帧对应的清浊音类别;确定单元,被配置为基于各语音帧对应的清浊音类别以及预设的基频筛选条件对候选基频点进行修正,并采用动态规划算法从修正后的候选基频点中确定出待处理语音信号的基频序列。在一些实施例中,上述分类单元进一步被配置为按照如下方式对语音帧进行清浊音分类,得到各语音帧对应的清浊音类别:将提取出的待处理语音信号的声学特征输入已训练的清浊音分类模型,得到待处理语音信号中各语音帧对应的清浊音分类结果。在一些实施例中,上述装置还包括:训练单元,被配置为基于已标注所包含的各语音帧的清浊音类别信息的样本语音信号,训练得出已训练的清浊音分类模型。在一些实施例中,上述提取单元进一步被配置为基于待处理语音信号的声学特征,按照如下方式提取待处理语音信号中各语音帧的候选基频点:对待处理语音信号进行降采样;对降采样后的待处理语音信号中的语音帧,基于声学特征计算互相关函数的峰值点,根据峰值点确定降采样后的待处理语音信号对应的候选基频点;将降采样后的待处理语音信号对应的候选基频点映射至待处理语音信号中,得到待处理语音信号中各语音帧的候选基频点。在一些实施例中,上述确定单元进一步被配置为基于各语音帧对应的清浊音类别以及预设的基频筛选条件,按照如下方式对候选基频点进行修正:根据各语音帧的候选基频点的分布特征,确定基频候选区间;基于各语音帧的清浊音类别对基频候选区间进行修正,得到修正后的基频候选区间;将不在修正后的基频候选区间中的目标候选基频点替换为目标候选基频点所对应的语音帧中的其他候选基频点,得到修正后的候选基频点。第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面提供的基频提取方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现第一方面提供的基频提取方法。本申请上述实施例的基频提取方法和装置,通过基于待处理语音信号的声学特征,提取待处理语音信号中各语音帧的候选基频点;对语音帧进行清浊音分类,得到各语音帧对应的清浊音类别;基于各语音帧对应的清浊音类别以及预设的基频筛选条件对候选基频点进行修正,并采用动态规划算法从修正后的候选基频点中确定出待处理语音信号的基频序列,能够对候选基频点中不合理的点进行有效过滤,降低了倍频、半频的错误率,提升了基频提取的准确性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请实施例可以应用于其中的示例性系统架构图;图2是根据本申请的基频提取方法的一个实施例的流程图;图3是根据本申请的基频提取方法的另一个实施例的流程图;图4是本申请的基频提取装置的一个实施例的结构示意图;图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的基频提取方法或基频提取装置的示例性系统架构。如图1所示,系统架构100可以包括终端设备101、102、103,网络104、以及服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户110可以使用终端设备101、102、103通过网络104与服务器105互,以接收或发送消息等。终端设备101、102、103上可以安装有各种语音交互类应用。终端设备101、102、103可以是具有音频输入接口和音频输出接口并支持互联网访问的各种电子设备,包括但不限于智能手机、平板电脑、智能手表、电子书、智能音箱等。服务器105可以是为语音服务提供支持的语音服务器,服务器105可以接收终端设备101、102、103发送的语音信号,对语音信号进行基频等声学特征的提取,还可以接收终端设备101、102、103发送的语音交互请求,对语音交互请求进行解析,根据解析结果查找相应的文本数据,并基于基频等声学特征进行语音合成,将生成的语音响应信号返回给终端设备101、102、103。终端设备101、102、103可以输出语音响应信号。需要说明的是,本申请实施例所提供的基频提取方法可以由终端设备101、102、103或服务器105执行,相应地,基频提取装置可以设置于终端设备101、102、103或服务器105本文档来自技高网...

【技术保护点】
1.一种基频提取方法,包括:基于待处理语音信号的声学特征,提取待处理语音信号中各语音帧的候选基频点;对所述语音帧进行清浊音分类,得到各所述语音帧对应的清浊音类别;基于各所述语音帧对应的清浊音类别以及预设的基频筛选条件对所述候选基频点进行修正,并采用动态规划算法从修正后的候选基频点中确定出所述待处理语音信号的基频序列。

【技术特征摘要】
1.一种基频提取方法,包括:基于待处理语音信号的声学特征,提取待处理语音信号中各语音帧的候选基频点;对所述语音帧进行清浊音分类,得到各所述语音帧对应的清浊音类别;基于各所述语音帧对应的清浊音类别以及预设的基频筛选条件对所述候选基频点进行修正,并采用动态规划算法从修正后的候选基频点中确定出所述待处理语音信号的基频序列。2.根据权利要求1所述的方法,其中,所述对所述语音帧进行清浊音分类,得到各所述语音帧对应的清浊音类别,包括:将提取出的所述待处理语音信号的声学特征输入已训练的清浊音分类模型,得到所述待处理语音信号中各语音帧对应的清浊音分类结果。3.根据权利要求2所述的方法,其中,所述方法还包括:基于已标注所包含的各语音帧的清浊音类别信息的样本语音信号,训练得出所述已训练的清浊音分类模型。4.根据权利要求1所述的方法,其中,所述基于待处理语音信号的声学特征,提取待处理语音信号中各语音帧的候选基频点,包括:对所述待处理语音信号进行降采样;对降采样后的待处理语音信号中的语音帧,基于所述声学特征计算互相关函数的峰值点,根据所述峰值点确定降采样后的待处理语音信号对应的候选基频点;将降采样后的待处理语音信号对应的候选基频点映射至所述待处理语音信号中,得到所述待处理语音信号中各语音帧的候选基频点。5.根据权利要求1-4任一项所述的方法,其中,所述基于各所述语音帧对应的清浊音类别以及预设的基频筛选条件对所述候选基频点进行修正,包括:根据各语音帧的候选基频点的分布特征,确定基频候选区间;基于各语音帧的清浊音类别对所述基频候选区间进行修正,得到修正后的基频候选区间;将不在所述修正后的基频候选区间中的目标候选基频点替换为所述目标候选基频点所对应的语音帧中的其他候选基频点,得到修正后的候选基频点。6.一种基频提取装置,包括:提取单元,被配置为基于待处理语音信号的声学特征,提取待处理语音信号中各语音帧的候选基频点;分类单元,被配置为对所述语音帧进行清浊音分类,得到各所述语音帧对应的清浊音类别;确定单元,被配置为基于各所述语音...

【专利技术属性】
技术研发人员:李骁盖于涛陈昌滨孙晨曦
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1