本申请公开了一种文本转音频方法、装置、计算机设备及存储介质,属于语音信号处理领域。方法包括:获取待转换文本;根据最优拆分粒度对待转换文本进行拆分,得到至少一段待转换文本片段,其中,对采用最优拆分粒度的文本进行音频转换时,单位文字的音频转换时间最短;对各段待转换文本片段进行音频转换,得到各段待转换文本片段对应的音频片段;对各段音频片段进行拼接,生成待转换文本对应的目标音频。采用本申请的文本转音频方法,能够通过最优拆分粒度对待转换文本进行拆分,使得拆分得到的待转换文本片段的音频转换效率得到提高,继而提高大段文本的音频转换效率,进一步减少音频转换过程中出现卡顿的概率,使得文本转音频过程更为流畅。
Text to audio method, device, computer equipment and storage medium
【技术实现步骤摘要】
文本转音频方法、装置、计算机设备及存储介质
本申请实施例涉及语音信号处理领域,特别涉及一种文本转音频方法、装置、计算机设备及存储介质。
技术介绍
随着人工智能技术的不断发展,人类基于智能电子设备所实现的娱乐活动越来越丰富,且给人类的生活带来了极大的便利。如在终端具备的传统阅读功能的基础上,还实现有声阅读的阅读方式,进一步丰富了终端的阅读场景;又如对于盲人、儿童、老人等文字阅读能力较低的特殊群体而言,可通过具备文本转音频功能的终端来实现对文本信息的获取。然而,在相关技术所提供的文本转音频过程中,存在着不能快速地将大段文本转换成音频的问题,且转换时长与文本字数呈现正相关的关系,即文本内容越多,转换的时间就越久。
技术实现思路
本申请实施例提供了一种文本转音频方法、装置、计算机设备及存储介质,所述技术方案如下:一方面,提供了一种文本转音频方法,所述方法包括:获取待转换文本;根据最优拆分粒度对所述待转换文本进行拆分,得到至少一段待转换文本片段,其中,对采用所述最优拆分粒度的文本进行音频转换时,单位文字的音频转换时间最短;对各段所述待转换文本片段进行音频转换,得到各段所述待转换文本片段对应的音频片段;对各段所述音频片段进行拼接,生成所述待转换文本对应的目标音频。另一方面,提供了一种文本转音频装置,所述装置包括:文本获取模块,用于获取待转换文本;文本拆分模块,用于根据最优拆分粒度对所述待转换文本进行拆分,得到至少一段待转换文本片段,其中,对采用所述最优拆分粒度的文本进行音频转换时,单位文字的音频转换时间最短;音频转换模块,用于对各段所述待转换文本片段进行音频转换,得到各段所述待转换文本片段对应的音频片段;音频拼接模块,用于对各段所述音频片段进行拼接,生成所述待转换文本对应的目标音频。另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如上述方面所述的文本转音频方法。另一方面,提供了一种计算机可读存储介质,所述存储介质存储有至少一条指令,所述至少一条指令用于被处理器执行以实现如上述方面所述的文本转音频方法。另一方面,还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述方面所述的文本转音频方法。本申请实施例中,计算机设备根据最优拆分粒度对待转换文本进行拆分,并对拆分后的各段待转换文本片段进行音频转换,得到各段待转换文本片段对应的音频片段,进一步的,计算机设备对各段音频片段进行拼接,最终生成待转换文本对应的目标音频。基于本申请实施例提供的文本转音频方法,能够通过最优拆分粒度对待转换文本进行拆分,使得拆分得到的待转换文本片段的音频转换效率得到提高,继而提高大段文本的音频转换效率,进一步减少音频转换过程中出现卡顿的概率,使得文本转音频过程更为流畅。附图说明图1示出了本申请一示例性实施例提供的文本转音频方法的流程图;图2示出了本申请另一示例性实施例提供的文本转音频方法的流程图;图3示出了本申请另一示例性实施例提供的文本转音频方法的流程图;图4示出了本申请另一示例性实施例提供的文本转音频方法的流程图;图5示出了图4示例性实施例对应的实施过程原理图;图6示出了本申请一示例性实施例提供的文本转音频装置的结构框图;图7示出了本申请一示例性实施例提供的计算机设备的结构方框图;图8示出了本申请另一示例性实施例提供的计算机设备的结构方框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请提供的文本转音频方法能够广泛应用于需要进行音频转换的场景中,且能够提高大段文本的音频转换效率,进一步缩短文本的转音频时长。在一个可能的应用场景中,在计算机设备具备的有声阅读模式下,本申请提供的文本转音频方法能够实现当前阅读内容的快速朗读,减少有声阅读时的停顿时间;在一个可能的应用场景中,对于盲人、儿童、老人等文字阅读能力较低的特殊群体而言,本申请提供的文本转音频方法能够实现计算机设备的文本转音频功能,且在提高音频转换效率的基础上,进一步提高上述特殊群体在实时交流过程中信息获取的及时性;在一个可能的应用场景中,在配音领域,本申请提供的文本转音频方法能够实现将文本内容转换成与配音演员音色相近的音频,使得在该配音演员不方便工作时,可将所转换的音频替换为该配音演员的实际配音音频,以方便后续工作的展开。可选的,上述可能的应用场景仅为示例性的举出,并不对本申请提供的文本转音频方法可能的应用场景造成限定。此外,在各个可能的应用场景中,包括本申请提供的计算机设备,该计算机设备具备存储功能以及文本转音频功能,可选的,文本转音频功能可以是计算机设备自带的功能,也可以是通过安装具备文本转音频功能的软件来实现的。在一种可能的实施方式中,计算机设备获取待转换文本并进行存储,当接收到对待转换文本的转换指令之后,计算机设备根据最优拆分粒度对待转换文本进行拆分,得到多段待转换文本片段,其中,采用最优拆分粒度的文本进行音频转换时,单位文字的音频转换时间最短,使得拆分后的待转换文本片段能够在较短的时间内完成音频转换,完成音频转换后的待转换文本片段为音频片段,最终,计算机设备对各段音频片段进行拼接,生成待转换文本对应的目标音频。可选的,计算机设备可以是具备上述音频转换功能的一种终端,或者,是指一种服务器。且对于计算机设备为服务器而言,该服务器可以是服务于某一终端的服务器,在一个示例中,终端将待转换文本发送至对应的服务器,服务器接收到后实施本申请中文本转音频方法。需要说明的是,在本申请各个实施例中以终端执行为例进行示意性的说明。请参考图1,其示出了本申请一示例性实施例提供的文本转音频方法的流程图。该方法包括:步骤101,获取待转换文本。可选的,本申请实施例中的待转换文本可以是预先存储于终端的文本,也可以是实时获取的文本。如将当前文本形式的文章进行有声阅读时,该文章对应的文本内容已预先存储于终端内;又如在即时通讯过程中,用户甲通过终端获取用户乙实时发送的文本信息,并通过终端具备的文本转音频功能对实时接收到的文本信息进行音频转换,用户乙则可以实时地获取音频格式的聊天内容,其中,用户乙实时发送的文本信息即为一种实时获取的文本。此外,根据用户对待转换文本转音频的需求程度而言,还可以对待转换文本的当前转换场景进行分类,如分为实时转换场景和非实时转换场景。实时转换场景是指,终端用户有实时获取音频转换结果的需要,如上述的有声阅读场景中,无论是用户本文档来自技高网...
【技术保护点】
1.一种文本转音频方法,其特征在于,所述方法包括:/n获取待转换文本;/n根据最优拆分粒度对所述待转换文本进行拆分,得到至少一段待转换文本片段,其中,对采用所述最优拆分粒度的文本进行音频转换时,单位文字的音频转换时间最短;/n对各段所述待转换文本片段进行音频转换,得到各段所述待转换文本片段对应的音频片段;/n对各段所述音频片段进行拼接,生成所述待转换文本对应的目标音频。/n
【技术特征摘要】
1.一种文本转音频方法,其特征在于,所述方法包括:
获取待转换文本;
根据最优拆分粒度对所述待转换文本进行拆分,得到至少一段待转换文本片段,其中,对采用所述最优拆分粒度的文本进行音频转换时,单位文字的音频转换时间最短;
对各段所述待转换文本片段进行音频转换,得到各段所述待转换文本片段对应的音频片段;
对各段所述音频片段进行拼接,生成所述待转换文本对应的目标音频。
2.根据权利要求1所述的方法,其特征在于,所述根据最优拆分粒度对所述待转换文本进行拆分,得到至少一段待转换文本片段,包括:
根据所述最优拆分粒度,通过折半法对所述待转换文本进行拆分,得到至少一段所述待转换文本片段,所述待转换文本片段包含的文字数小于或等于所述最优拆分粒度,所述折半法用于对所述待转换文本进行均匀拆分,得到与所述最优拆分粒度最接近的拆分粒度。
3.根据权利要求2所述的方法,其特征在于,所述待转换文本被拆分为n个所述待转换文本片段,n为大于等于2的整数;
所述得到至少一段所述待转换文本片段之后,所述方法还包括:
获取相邻的第k待转换文本片段和第k+1待转换文本片段,k为大于等于1且小于等于n-1的整数;
若所述第k待转换文本片段的片尾文字与所述第k+1待转换文本片段的片头文字属于同一词汇,则对所述第k待转换文本片段和所述第k+1待转换文本片段进行调整,其中,调整后所述第k待转换文本片段的片尾文字与所述第k+1待转换文本片段的片头文字不属于同一词汇。
4.根据权利要求1至3任一所述的方法,其特征在于,所述获取待转换文本之前,所述方法还包括:
对样本文本进行转音频测试,所述转音频测试用于测试所述样本文本在不同拆分粒度下的转音频时长;
根据所述转音频时长和所述样本文字的字数,确定出不同拆分粒度下单位文字的音频转换时间;
将最低音频转换时间对应的拆分粒度确定为所述最优拆分粒度。
5.根据权利要求1至3任一所述的方法,其特征在于,所述对...
【专利技术属性】
技术研发人员:刘佳泽,罗忠岚,
申请(专利权)人:广州酷狗计算机科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。