用于确定音素发音时长的方法和装置制造方法及图纸

技术编号:17305771 阅读:34 留言:0更新日期:2018-02-19 01:05
本申请实施例公开了用于确定音素发音时长的方法和装置。该方法的一具体实施方式包括:获取待合成语音对应的文本;提取该文本的文本特征;将该文本特征导入预先建立的第一时长确定模型,生成发音时长类型序列,其中,该发音时长类型序列中的发音时长类型与该文本对应的音素序列中的音素对应,该第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系;根据所生成的发音时长类型序列和预先设置的对应关系信息,确定该文本对应的音素序列中各个音素的发音时长,其中,该对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。该实施方式提高了所确定的音素的发音时长准确性。

A method and device used to determine the length of phonemes

The present application embodiment discloses a method and device for determining the length of a phoneme pronouncing time. One embodiment of the method includes: obtaining the corresponding text to speech synthesis; text feature extraction of the text; the text features into the pre established first time to determine the model, generate pronunciation length type sequences, among them, the pronunciation phoneme phoneme sequence type and the long text in the corresponding types in the sequence of pronunciation correspondence, the first time to determine the model for text features and corresponding relationship between pronunciation characterization of long type sequence; according to the types of sequence and the preset correspondence information generated by pronunciation, determine each phoneme phoneme sequence corresponding to the pronunciation of the text length, which corresponds to the the corresponding relationship information for indicating the relation between the pronunciation length type and length of the pronunciation. The implementation method improves the accuracy of the pronunciation of the identified phonemes.

【技术实现步骤摘要】
用于确定音素发音时长的方法和装置
本申请实施例涉及计算机
,具体涉及语音合成
,尤其涉及用于确定音素发音时长的方法和装置。
技术介绍
语音合成技术,又称文语转换技术,是通过机械的、电子的方法产生人造语音的技术。它是将计算机本地产生的或外部输入的文字信息转变为可以被人听得懂的、流利的语音的技术。在语音合成的过程中,需要对拼接多个语音单元对应的音频,语音单元可以是拼音,也可以是音素。然而,现有的语音合成的方法,通常是对语音单元的发音时长不做区分。
技术实现思路
本申请实施例的目的在于提出一种用于确定音素发音时长的方法和装置。第一方面,本申请实施例提供了一种用于确定音素发音时长的方法,上述方法包括:获取待合成语音对应的文本;提取上述文本的文本特征;将上述文本特征导入预先建立的第一时长确定模型,生成发音时长类型序列,其中,上述发音时长类型序列中的发音时长类型与上述文本对应的音素序列中的音素对应,上述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系;根据所生成的发音时长类型序列和预先设置的对应关系信息,确定上述文本对应的音素序列中各个音素的发音时长,其中,上述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。第二方面,本申请实施例提供了一种用于确定音素发音时长的装置,上述装置包括:获取单元,用于获取待合成语音对应的文本;提取单元,用于提取上述文本的文本特征;第一生成单元,用于将上述文本特征导入预先建立的第一时长确定模型,生成发音时长类型序列,其中,上述发音时长类型序列中的发音时长类型与上述文本对应的音素序列中的音素对应,上述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系;确定单元,用于根据所生成的发音时长类型序列和预先设置的对应关系信息,确定上述文本对应的音素序列中各个音素的发音时长,其中,上述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。第三方面,本申请实施例提供了一种电子设备,上述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面的方法。本申请实施例提供的用于确定音素发音时长的方法和装置,通过首先提取待合成语音对应的文本的文本特征,然后利用第一时长确定模型确定发音时长类型序列,再根据用于指示发音时长类型与发音时长的之间的对应关系的对应关系信息,得到上述文本对应的音素序列中各个音素的发音时长,由此,可以确定更为准确的音素发音时长。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的用于确定音素发音时长的方法的一个实施例的流程图;图3是根据本申请的用于确定音素发音时长的方法的一个应用场景的示意图;图4是根据本申请的用于确定音素发音时长的方法的一个示例性实现方式的流程图;图5A是根据本申请的用于确定音素发音时长的方法的又一个实施例的流程图;图5B是图5A所示的流程中步骤506的示例性实现方式的流程图;图6是根据本申请的用于确定音素发音时长的装置的一个实施例的结构示意图;图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的用于确定音素发音时长的方法或用于确定音素发音时长的装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如语音助手类应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是具有语音播放功能的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上语音助手类应用提供支持的后台服务器。后台服务器可以对接收到的语音合成请求等数据进行分析等处理,并将处理结果(例如合成的语音数据)反馈给终端设备。需要说明的是,本申请实施例所提供的用于确定音素发音时长的方法一般由服务器105执行,相应地,用于确定音素发音时长的装置一般设置于服务器105中。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。需要说明的是,在一些应用场景中,系统架构100也可以不包括终端设备和网络。继续参考图2,其示出了根据本申请的用于确定音素发音时长的方法的一个实施例的流程200。上述的用于确定音素发音时长的方法,包括以下步骤:步骤201,获取待合成语音对应的文本。在本实施例中,用于确定音素发音时长的方法运行于其上的电子设备(例如图1所示的服务器)可以获取待合成语音对应的文本。在本实施例中,上述电子设备可以通过各种方式,例如本地生成或者从其它电子设备接收,获取待合成语音对应的文本。作为示例,在自动问答的场景中,用户的问题是“1加1等于几”,上述电子设备在确定答案是“2”之后,可以生成文本“二”,即待合成语音为文本“二”对应的语音。作为示例,用户使用终端输入文本“我吃饭”,终端将上述文本发送至服务器,服务器可以合成文本“我吃饭”对应的语音。步骤202,提取文本的文本特征。在本实施例中,上述电子设备可以提取上述文本的文本特征。在本实施例中,提取文本的何种文本特征可以在实际应用中灵活调整。作为示例,提取的文本特征可以包括但不限于:文本对应的各个音素、音调信息、词向量、词性信息、标点符号信息等。作为示出,对于文本“我吃饭”,文本对应的各个音素可以是“wochifan”,音调信息为“三声、一声、四声”等。需要说明的是,文本特征的表示形式可以根据实际情况进行设置,例如,可以是利用独热码形式来进行特征表示,在此不再赘述。在本实施例中,以音素为基本单位进行语音的合成。音素,是语音中的最小的单位,依据音节里的发音动作来分析,一本文档来自技高网...
用于确定音素发音时长的方法和装置

【技术保护点】
一种用于确定音素发音时长的方法,其特征在于,所述方法包括:获取待合成语音对应的文本;提取所述文本的文本特征;将所述文本特征导入预先建立的第一时长确定模型,生成发音时长类型序列,其中,所述发音时长类型序列中的发音时长类型与所述文本对应的音素序列中的音素对应,所述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系;根据所生成的发音时长类型序列和预先设置的对应关系信息,确定所述文本对应的音素序列中各个音素的发音时长,其中,所述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。

【技术特征摘要】
1.一种用于确定音素发音时长的方法,其特征在于,所述方法包括:获取待合成语音对应的文本;提取所述文本的文本特征;将所述文本特征导入预先建立的第一时长确定模型,生成发音时长类型序列,其中,所述发音时长类型序列中的发音时长类型与所述文本对应的音素序列中的音素对应,所述第一时长确定模型用于表征文本特征与发音时长类型序列之间的对应关系;根据所生成的发音时长类型序列和预先设置的对应关系信息,确定所述文本对应的音素序列中各个音素的发音时长,其中,所述对应关系信息用于指示发音时长类型与发音时长的之间的对应关系。2.根据权利要求1所述的方法,其特征在于,所述第一时长确定模型是通过以下步骤得到的:获取第一训练样本集,其中,第一训练样本是关联设置有音素的发音时长的音频信息;利用所述第一训练样本集训练第一神经网络和条件随机场模型,得到第一时长确定模型,其中,第一神经网络的输出是条件随机场模型的输入。3.根据权利要求2所述的方法,其特征在于,所述第一神经网络的输出包括所述音素序列中的每个音素对应的概率序列,其中,该音素对应的概率序列中的概率为该音素的发音时长属于预先设置的发音时长类型的概率。4.根据权利要求1所述的方法,其特征在于,所述发音时长类型是通过以下步骤得到的:确定音素的最短发音时长和最长发音时长;将所述最短发音时长取对数得到第一对数值,并且将所述最长发音时长取对数得到第二对数值;确定所述第二对数值与所述第一对数值之间的差值,并且确定所述差值与预设数目的比值;生成包括预设数目个发音时长类型的发音时长类型序列,其中,对于所述发音时长序列中的每个发音时长类型,该发音时长类型对应的发音时长是根据该发音时长类型在所述发音时长类型序列的位次信息和所述比值确定的。5.根据权利要求4所述的方法,其特征在于,所述第一训练样本集是通过以下步骤得到的:对于所述发音时长类型序列中的每个发音时长类型对应的发音时长,确定初始样本集中是否包括关联设置有该发音时长的样本,其中,初始样本是关联设置有音素的发音时长的音频信息;响应于确定所述初始样本集中不包括关联设置有该发音时长的样本,调整关联设置有与该发音时长差值最小的发音时长的样本,得到该发音时长的样本;将经调整得到的样本加入所述初始样本集,得到所述第一训练样本集。6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:将所述文本特征导入预先建立的第二时长确定模型,生成所述文本对应的第二发音时长序列,其中,所述第二发音时长序列包括所述文本对应的音素序列中各个音素的发音时长,所述第二时长时长确定模型用于表征文本特征与第二发音时长序列之间...

【专利技术属性】
技术研发人员:张黄斌
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1