The present application embodiment discloses a method and device for determining the length of a phoneme pronouncing time. One embodiment of the method includes: obtaining the corresponding text to speech synthesis; text feature extraction of the text; the text features into the pre established first time to determine the model, generate pronunciation length type sequences, among them, the pronunciation phoneme phoneme sequence type and the long text in the corresponding types in the sequence of pronunciation correspondence, the first time to determine the model for text features and corresponding relationship between pronunciation characterization of long type sequence; according to the types of sequence and the preset correspondence information generated by pronunciation, determine each phoneme phoneme sequence corresponding to the pronunciation of the text length, which corresponds to the the corresponding relationship information for indicating the relation between the pronunciation length type and length of the pronunciation. The implementation method improves the accuracy of the pronunciation of the identified phonemes.
【技术实现步骤摘要】
用于确定音素发音时长的方法和装置
本申请实施例涉及计算机
,具体涉及语音合成
,尤其涉及用于确定音素发音时长的方法和装置。
技术介绍
语音合成技术,又称文语转换技术,是通过机械的、电子的方法产生人造语音的技术。它是将计算机本地产生的或外部输入的文字信息转变为可以被人听得懂的、流利的语音的技术。在语音合成的过程中,需要对拼接多个语音单元对应的音频,语音单元可以是拼音,也可以是音素。然而,现有的语音合成的方法,通常是对语音单元的发音时长不做区分。
技术实现思路
本申请实施例的目的在于提出一种用于确定音素发音时长的方法和装置。第一方面,本申请实施例提供了一种用于确定音素发音时长的方法,上述方法包括:获取待合成语音对应的文本;提取上述文本的文本特征;将上述文本特征导入预先建立的第一时长确定模型,生成发音时长类型序列,其中,上述发音时长类型序列中的发音时长类型与上述文本对应的音素序列中的音素对应,上述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系;根据所生成的发音时长类型序列和预先设置的对应关系信息,确定上述文本对应的音素序列中各个音素的发音时长,其中,上述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。第二方面,本申请实施例提供了一种用于确定音素发音时长的装置,上述装置包括:获取单元,用于获取待合成语音对应的文本;提取单元,用于提取上述文本的文本特征;第一生成单元,用于将上述文本特征导入预先建立的第一时长确定模型,生成发音时长类型序列,其中,上述发音时长类型序列中的发音时长类型与上述文本对应的音素序列中的音素对应,上述第一时长 ...
【技术保护点】
一种用于确定音素发音时长的方法,其特征在于,所述方法包括:获取待合成语音对应的文本;提取所述文本的文本特征;将所述文本特征导入预先建立的第一时长确定模型,生成发音时长类型序列,其中,所述发音时长类型序列中的发音时长类型与所述文本对应的音素序列中的音素对应,所述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系;根据所生成的发音时长类型序列和预先设置的对应关系信息,确定所述文本对应的音素序列中各个音素的发音时长,其中,所述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。
【技术特征摘要】
1.一种用于确定音素发音时长的方法,其特征在于,所述方法包括:获取待合成语音对应的文本;提取所述文本的文本特征;将所述文本特征导入预先建立的第一时长确定模型,生成发音时长类型序列,其中,所述发音时长类型序列中的发音时长类型与所述文本对应的音素序列中的音素对应,所述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系;根据所生成的发音时长类型序列和预先设置的对应关系信息,确定所述文本对应的音素序列中各个音素的发音时长,其中,所述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。2.根据权利要求1所述的方法,其特征在于,所述第一时长确定模型是通过以下步骤得到的:获取第一训练样本集,其中,第一训练样本是关联设置有音素的发音时长的音频信息;利用所述第一训练样本集训练第一神经网络和条件随机场模型,得到第一时长确定模型,其中,第一神经网络的输出是条件随机场模型的输入。3.根据权利要求2所述的方法,其特征在于,所述第一神经网络的输出包括所述音素序列中的每个音素对应的概率序列,其中,该音素对应的概率序列中的概率为该音素的发音时长属于预先设置的发音时长类型的概率。4.根据权利要求1所述的方法,其特征在于,所述发音时长类型是通过以下步骤得到的:确定音素的最短发音时长和最长发音时长;将所述最短发音时长取对数得到第一对数值,并且将所述最长发音时长取对数得到第二对数值;确定所述第二对数值与所述第一对数值之间的差值,并且确定所述差值与预设数目的比值;生成包括预设数目个发音时长类型的发音时长类型序列,其中,对于所述发音时长序列中的每个发音时长类型,该发音时长类型对应的发音时长是根据该发音时长类型在所述发音时长类型序列的位次信息和所述比值确定的。5.根据权利要求4所述的方法,其特征在于,所述第一训练样本集是通过以下步骤得到的:对于所述发音时长类型序列中的每个发音时长类型对应的发音时长,确定初始样本集中是否包括关联设置有该发音时长的样本,其中,初始样本是关联设置有音素的发音时长的音频信息;响应于确定所述初始样本集中不包括关联设置有该发音时长的样本,调整关联设置有与该发音时长差值最小的发音时长的样本,得到该发音时长的样本;将经调整得到的样本加入所述初始样本集,得到所述第一训练样本集。6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:将所述文本特征导入预先建立的第二时长确定模型,生成所述文本对应的第二发音时长序列,其中,所述第二发音时长序列包括所述文本对应的音素序列中各个音素的发音时长,所述第二时长时长确定模型用于表征文本特征与第二发音时长序列之间...
【专利技术属性】
技术研发人员:张黄斌,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。