用于生成语音的方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:25047473 阅读:25 留言:0更新日期:2020-07-29 05:36
本公开的实施例公开了用于生成语音的方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取用户语音和目标说话人语音;提取用户语音中的文本特征向量;根据目标说话人语音,得到目标说话人信息;基于目标说话人信息和文本特征向量,生成目标语言的语音。该实施方式实现了任意的目标说话人声音的定制化语音生成,提升用户体验。

【技术实现步骤摘要】
用于生成语音的方法、装置、电子设备和计算机可读介质
本公开的实施例涉及计算机
,具体涉及用于生成语音的方法、装置、电子设备和计算机可读介质。
技术介绍
有关语音生成技术的研究已经是整个语音语言研究中非常重要的组成部分,国内外均有一些这方面的前期研究成果,但限于计算复杂度、存储量及计算实时性等多方面原因,早期工作大部分还停留在实验室阶段。但在很多方面中,语音生成技术的应用前景十分广泛。相关技术中,生成的语音往往都是同一种声音,无法生成任意说话人声音的语音生成。
技术实现思路
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了用于生成语音的方法、装置、电子设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题。第一方面,本公开的一些实施例提供了一种用于生成语音的方法,该方法包括:获取用户语音和目标说话人语音;提取用户语音中的文本特征向量;根据目标说话人语音,得到目标说话人信息;基于目标说话人信息和文本特征向量,生成目标语言的语音。第二方面,本公开的一些实施例提供了一种生成语音装置,装置包括:获取单元,被配置成获取用户语音和目标说话人语音;提取单元,被配置成提取上述用户语音中的文本特征向量;第一生成单元,被配置成根据上述目标说话人语音,得到目标说话人信息;第二生成单元,被配置成基于上述目标说话人信息和文本特征向量,生成目标语言的语音。第三方面,本申请实施例提供了一种电子设备,该网络设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本公开的上述各个实施例中的一个实施例具有如下有益效果:首先,获取用户语音和目标说话人语音,而后从用户语音中国提取文本特征向量并根据目标说话人语音得到目标说话人信息,做最后基于目标说话人信息和文本特征向量生成目标语音的语音。从而利用用户语音和目标说话人语音生成目标语言的语音,实现了任意的目标说话人声音的定制化语音生成,提升用户体验。附图说明结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。图1是根据本公开一些实施例的用于生成语音的方法的一个应用场景的示意图;图2是根据本公开的用于生成语音的方法的一些实施例的流程图;图3是根据本公开的生成语音装置的一些实施例的结构示意图;图4是适于用来实现本公开的一些实施例的电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。下面将参考附图并结合实施例来详细说明本公开。图1是根据本公开一些实施例的用于生成语音的方法的一个应用场景的示意图。如图1所示,首先,服务器101可以获取用户语音102和目标说话人语音103。之后,服务器101可以从用户语音102中提取文本特征向量104,根据目标说话人语音103得到目标说话人信息105。接着,服务器101可以利用文本特征向量104和目标说话人信息105生成目标语言的语音106。可以理解的是,用于生成语音的方法可以是由服务器101来执行,或者也可以是由终端设备来执行,上述方法的执行主体还可以包括上述服务器101与上述终端设备通过网络相集成所构成的设备,或者还可以是各种软件程序来执行。其中,终端设备可以是具有信息处理能力的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当执行主体为软件时,可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。应该理解,图1中的服务器数目仅仅是示意性的。根据实现需要,可以具有任意数目的服务器。继续参考图2,示出了根据本公开的用于生成语音的方法的一些实施例的流程200。该用于生成语音的方法,包括以下步骤:步骤201,获取用户语音和目标说话人语音。在一些实施例中,用于生成语音的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行网页浏览的终端获取用户语音和目标说话人语音。在这里,上述目标说话人通常是指用户想要生成的说话人声音。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。步骤202,提取上述用户语音中的文本特征向量。在一些实施例中,基于步骤201中得到的用户语音,上述执行主体(例如图1所示的服务器)可以通过多种方式提取上述用户语音中的文本特征向量。作为示例,上述执行主体可以通过将用户语音转换成文本方式提取文本特征向量,作为又一示例,上述执行主体还可以预先存储多条用户语音及用户语音对应的文本特征向量的对应关系,当提取文本特征向量时,在预存的用户语音中确定相同或相似的用户语音并提取对应的文本特征向量。在这里,上述文本特征向量通常是指上述用户语音内容对应的拼音序列或音素序列。作为示例,当上述用户语音转换的文本为“你好”,则文本特征向量可以是拼音序列“nihao”;当上述用户语音转换成的文本为“hello”,则上述文本特征向量可以是音素序列“hello”。在一些实施例的一些可选的实现方式中,上述执行主体可以提取上述用户语音中的声学特征。在这里,上述本文档来自技高网...

【技术保护点】
1.一种用于生成语音的方法,包括:/n获取用户语音和目标说话人语音;/n提取所述用户语音中的文本特征向量;/n根据所述目标说话人语音,得到目标说话人信息;/n基于所述目标说话人信息和文本特征向量,生成目标语言的语音。/n

【技术特征摘要】
1.一种用于生成语音的方法,包括:
获取用户语音和目标说话人语音;
提取所述用户语音中的文本特征向量;
根据所述目标说话人语音,得到目标说话人信息;
基于所述目标说话人信息和文本特征向量,生成目标语言的语音。


2.根据权利要求1所述的方法,其中,所述提取用户语音中的文本特征向量,包括:
提取所述用户语音中的声学特征;
通过提取模型对声学特征进行分析,得到文本特征向量,其中,所述提取模型已通过第一样本训练样本集合进行了训练,所述第一训练样本集合包括样本声学特征和样本文本特征向量。


3.根据权利要求2所述的方法,其中,所述提取模型是以所述样本声学特征作为输入并以所述样本文本特征向量用于作为期望输出进行训练的。


4.根据权利要求1所述的方法,其中,所述根据所述目标说话人语音,得到目标说话人信息,包括:
通过生成模型对目标说话人语音进行分析,得到目标说话人信息,其中,所述生成模型已通过第二样本训练集合进行了训练,所述第二训练样本集合包括样本目标说话人语音和样本目标说话人信息。


5.根据权利要求4所述的方法,其中,所述生成模型是以所述样本目标说话人语音作为期望输入并以所述样本目标说话人信息作为期望输出进行训练的。


6.根据权利要求1所述的方法,其中,所...

【专利技术属性】
技术研发人员:汤本来顾宇
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1