音频或音频链接的生成方法及系统技术方案

技术编号:28323446 阅读:23 留言:0更新日期:2021-05-04 13:04
本发明专利技术实施例提供一种音频或音频链接的生成方法。该方法包括:将文本进行切割处理,生成多个文本段;将多个文本段按照进栈方式向语音对话平台逐步请求TTS服务;按照出栈方式生成多个音频链接或多个音频文件。本发明专利技术实施例还提供一种音频或音频链接的生成系统。本发明专利技术实施例为用户或者公司提供了高度可定制化的文字或者文章链接生成音频流或者音频链接,为用户定制最“可甜可盐”的声音,可以制作各种定制化的听文章朗读软件,为智能家居产品提供可定制化的人工智能语音。同时还生成功能中为用户提供试听功能,提高用户的体验。

【技术实现步骤摘要】
音频或音频链接的生成方法及系统
本专利技术涉及智能语音领域,尤其涉及一种音频或音频链接的生成方法及系统。
技术介绍
为了实现将文字转换成音频,通常使用文本转语音工具。用户在软件上输入或复制粘贴一些文字,用户再从软件中选择一些不同的音色,然后点击合成音频,生成用户需要的音频。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:文本转语音工具为了适普性,主要支持手动的内容输入和复制内容去生成音频流,通常使用标记文本方式,串行的合成音频,没法实现分布式生成音频链接,做到边试听边合成,要实现此技术需要考虑各种因素,实现难度大,需要花费的时间长,而且可能还会出现试听的音频顺序不一致(朗读的文字和音频不匹配),另外背后没有强大的AI语音技术提供支持,没法实现多个性化定制。
技术实现思路
为了至少解决现有技术中串行合成处理效率慢、无法做到边合成边试听、无法为用户提供个性化音频生成的问题。第一方面,本专利技术实施例提供一种音频或音频链接的生成方法,包括:将文本进行切割处理,生成多个文本段;将所述多个文本段按照进栈方式向语音对话平台逐步请求TTS服务;按照出栈方式生成多个音频链接或多个音频文件。第二方面,本专利技术实施例提供一种音频或音频链接的生成系统,包括:文本切割程序模块,用于将文本进行切割处理,生成多个文本段;服务请求程序模块,用于将所述多个文本段按照进栈方式向语音对话平台逐步请求TTS服务;出栈程序模块,用于按照出栈方式生成多个音频链接或多个音频文件。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的音频或音频链接的生成方法的步骤。第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的音频或音频链接的生成方法的步骤。本专利技术实施例的有益效果在于:通过本方法实现的软件为用户或者公司提供了高度可定制化的文字或者文章链接生成音频流或者音频链接,为用户定制最“可甜可盐”的声音,可以制作各种定制化的听文章朗读软件(听朗读文章或者新闻),为智能家居产品提供可定制化的人工智能语音。同时还生成功能中为用户提供试听功能,提高用户的体验。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种音频或音频链接的生成方法的流程图;图2是本专利技术一实施例提供的一种音频或音频链接的生成方法的整体流程图;图3是本专利技术一实施例提供的一种音频或音频链接的生成系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示为本专利技术一实施例提供的一种音频或音频链接的生成方法的流程图,包括如下步骤:S11:将文本进行切割处理,生成多个文本段;S12:将所述多个文本段按照进栈方式向语音对话平台逐步请求TTS服务;S13:按照出栈方式生成多个音频链接或多个音频文件。在本实施方式中,前期做了大量软件和技术的相关调研,站在用户使用角度上设计出了能实现链接或者用户自行输入文本转音频或者音频链接的工具;可以基于我们开发的工具制作各种软件,譬如制作公众号文章里面的文章朗读,或者一些儿童朗读产品。对于步骤S11,用户将需要转换成音频的文本输入到搭载本方法的工具中,接收到文本之后,对分别进行切割,将其切割成多个文本段。本方法考虑到公众号文章、或儿童朗读的环境,因此本方法可处理的文本量是较大的。例如,公众号中的文章、又或者安徒生童话,都是有成千上万字的内容,切割后也会有大量的文本段。对于步骤S12,切割出大量的文本段后,并发的通过Http接口发送每个文本段到工具的后台。后台收到文本,会对接语音对话平台(例如思必驰的语音对话平台)的TTS(TextToSpeech,从文本到语音)文本转语音技术。将这些文本段按照进栈方式向思必驰语音对话平台逐步请求TTS服务。对于步骤S13,TTS服务处理完之后,会按照出栈方式逐步的生成多个音频链接或音频文件。由于考虑到用户需要试听的功能,提供音频的同时还提供了音频链接,用户点击音频链接可以直接试听,也可以直接下载音频段试听。在TTS服务过程中,不断的进栈、出栈处理,实现了边转音频,边为用户提供试听的功能,试听功能不必等待文本全部合成完毕,用户无需等待。在试听的时候,主要采用了分布式,根据(切割)每句话与音频段进行匹配。最后所有的文本段转换成音频后,通过Http接口返回给用户所需要的整体的音频流或者音频链接。整体的流程图如图2所示。通过该实施方式可以看出,使用进栈、出栈为语音转文本实现高效率转化,同时在TTS服务过程中为用户提供了试听功能,无需等待全部处理完毕,提高用户的使用体验。作为一种实施方式,在本实施例中,所述将文本进行切割处理,生成多个文本段包括:响应于用户的个性化需求,对文本进行切割处理。在本实施方式中,考虑到用户在转化音频时,会有独特的个性化需求。例如,搭载本方法的工具会将一篇文章先展示给用户。用户可以对文章进行文本再加工。例如,对文章中的多音字进行纠正、进一步添加停顿、设定不同的语速、自定义音色以及音量大小。这些功能在工具中都为用户进行提供。当用户个性化处理之后,点击工具的生成音频,工具开始对文本进行切割处理。所述对文本进行切割处理还包括:根据标点符号对文本进行切割。在本实施方式中,考虑到合理的分割,标点符号较为标准,例如,可以设定一个句号进行分割,或者两个句号进行分割。这个可以根据实际情况进行调整。通过该实施方式可以看出,为用户提供了个性化自定义的功能,让生成的音频更加贴合用户的需求。可以将生成的音频适用于文章朗读产品或者儿童朗读产品。作为一种实施方式,所述文本来自于爬虫链接爬取用户上传的链接以及用户输入的文本。在本实施方式中,考虑到文本如果全由用户输入过于麻烦,本方法提供了链接搜索文章的功能。用户在工具中输入文章链接,后台收到文章链接,通过爬虫爬取到该文章链接中的内容。爬取后还会进行一系列的容错处理。处理后将文本通过工具向用户进行展示。通过该实施方式可以看出,为用户提供了高度可定制化的文字或文章链接来本文档来自技高网...

【技术保护点】
1.一种音频或音频链接的生成方法,包括:/n将文本进行切割处理,生成多个文本段;/n将所述多个文本段按照进栈方式向语音对话平台逐步请求TTS服务;/n按照出栈方式生成多个音频链接或多个音频文件。/n

【技术特征摘要】
1.一种音频或音频链接的生成方法,包括:
将文本进行切割处理,生成多个文本段;
将所述多个文本段按照进栈方式向语音对话平台逐步请求TTS服务;
按照出栈方式生成多个音频链接或多个音频文件。


2.根据权利要求1所述的方法,其中,所述将文本进行切割处理,生成多个文本段包括:
响应于用户的个性化需求,对文本进行切割处理。


3.根据权利要求2所述的方法,其中,所述对文本进行切割处理还包括:
根据标点符号对文本进行切割。


4.根据权利要求1所述的方法,其中,所述文本来自于爬虫链接爬取用户上传的链接以及用户输入的文本。


5.一种音频或音频链接的生成系统,包括:
文本切割程序模块,用于将文本进行切割处理,生成多个文本段;
服务请求程序模块,用于将所述多个文本段按照进栈方式向语音对话平台逐步请求TTS服务;
出栈程...

【专利技术属性】
技术研发人员:王国李勇
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1