System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种支持智能处理的语音合成方法及系统技术方案_技高网

一种支持智能处理的语音合成方法及系统技术方案

技术编号:40588386 阅读:3 留言:0更新日期:2024-03-12 21:48
本发明专利技术公开了一种支持智能处理的语音合成方法及系统,涉及智能语音处理技术领域,包括对输入文本集中管理配置属性并转化为语音资源;进行文本预处理与分词,构建文本向量模型;进行信息过滤与权重调整,调整后输入复合模型生成数值型向量进行语音合成。本发明专利技术提供的支持智能处理的语音合成方法本发明专利技术在通过信息过滤函数和权重分配机制,确保每个词语在语音合成中的重要性得到合理体现,充分考虑词语在特定上下文中的重要性和适用性。根据文本内容的特性,灵活选择不同的语音合成引擎,以适应不同类型的文本。采用jieba分词工具对文本进行预处理,构建文本向量模型,更有效地理解和处理文本数据。

【技术实现步骤摘要】

本专利技术涉及智能语音处理,具体为一种支持智能处理的语音合成方法及系统


技术介绍

1、从最初的基于规则的语音合成到基于统计模型的方法,再到近年来的深度学习算法,语音合成技术经历了显著的进步。深度学习算法,尤其是基于神经网络的模型,如循环神经网络(rnn)和长短期记忆网络(lstm),已成为推动该领域发展的主要力量。早期的语音合成系统往往生成机械和单调的声音,而现代系统则能生成更自然、流畅且富有表现力的语音。这得益于更复杂的算法和大量的训练数据,使得合成的语音在语调、节奏和情感表达上更加接近真人。现代语音合成技术不仅能够生成标准的语音输出,还能根据不同的应用场景和用户需求进行定制。例如,可以根据文本的情感色彩调整语音的音色和语调,或者为特定的用户群体定制特定风格的语音。随着计算能力的提升和算法的优化,现代语音合成系统能够更快速地处理文本并生成语音,甚至能够实现实时语音合成。

2、但当前的语音合成方法仍存在一些缺陷,传统的语音合成系统往往采用较为简单的文本处理方法,如直接的文本到语音转换,缺乏对文本深层次语义的理解和处理。这导致合成的语音在自然度和表达力上有所不足。现有系统在处理特定词语或短语时,往往缺乏有效的信息过滤机制和权重调整策略,无法充分考虑词语在特定上下文中的重要性和适用性。大多数现有的语音合成系统在处理不同类型的文本(如专业文本与日常对话)时,使用相同的处理方法和语音合成引擎,缺乏针对性和灵活性。传统的语音合成技术在情感表达方面存在限制,很难根据文本的情感色彩调整音色和语调,使得合成的语音缺乏情感表达力。现有技术在满足用户个性化需求方面存在不足,如在语速、节奏、音色等方面的调整不够灵活,无法满足不同用户的具体需求。


技术实现思路

1、鉴于上述存在的问题,提出了本专利技术。

2、因此,本专利技术解决的技术问题是:现有的语音合成方法存在文本处理的局限性,缺少过滤机制,以及如何语音合成存在的单一性,灵活性不足的问题。

3、为解决上述技术问题,本专利技术提供如下技术方案:一种支持智能处理的语音合成方法,包括对输入文本集中管理配置属性并转化为语音资源;进行文本预处理与分词,构建文本向量模型;进行信息过滤与权重调整,调整后输入复合模型生成数值型向量进行语音合成。

4、作为本专利技术所述的支持智能处理的语音合成方法的一种优选方案,其中:所述对输入文本集中管理配置属性并转化为语音资源包括通过创建任务的方式将需要批量合成的文本基于任务进行批量上传,基于任务来配置通用的属性。

5、作为本专利技术所述的支持智能处理的语音合成方法的一种优选方案,其中:所述转化为语音资源包括词典配置、结构化规则配置以及模板音制作;所述词典配置对于专有名词进行规范化框定,被框定的名字进行固定化方法描述,不被通用规则限制;所述结构化规则包括当一个名词或一个文本有多种语音表达方式时,将所有有争议的语音表达方式限制成一种规定标准下的语音表达方式;所述模板音制作包括将录音文本和录音打包成模板音资源,在合成的时候,tts引擎自动匹配模板音文本,记录固定部分和动态部分衔接的位置,将整句全部合成,然后根据匹配的位置计算到需要拼接的音频位置,将固定部分的合成音用录音替换。

6、作为本专利技术所述的支持智能处理的语音合成方法的一种优选方案,其中:所述构建文本向量模型包括将接收文本输入,并使用jieba分词工具进行预处理将文本分解为词语或短语并计算定义文本d的tf-jdf值,表示为:

7、

8、其中,tf(ti,d)表示词语ti在文档d中的频率,n表示文档集中的文档总数,ni是包含词语ti的文档数。

9、作为本专利技术所述的支持智能处理的语音合成方法的一种优选方案,其中:所述进行信息过滤与权重调整包括系统将使用信息过滤函数g(ti,d)处理每个词语的tf-jdf值,并为每个词语分配权重,表示为:

10、

11、

12、其中,wi是短语ti的权重。

13、作为本专利技术所述的支持智能处理的语音合成方法的一种优选方案,其中:所述调整后输入复合模型生成数值型向量包括将文本d转换为数值型向量,用于智能处理的语音合成,表示为:

14、

15、其中,完成向量输出后,进行语音合成。

16、作为本专利技术所述的支持智能处理的语音合成方法的一种优选方案,其中:所述语音合成包括根据文本内容的特性选择合适的语音合成引擎,若文本内容包含专业输出出现频率超过10%,选择专业领域的语音合成引擎,若专业输出出现频率低于10%,视为日常对话,选择自然语言处理引擎;根据文本的情感色彩和场景需求调整音色和语调,若文本具情感倾向,则调整音色和语调以匹配这种情感,若文具是新闻播报,选择无情感的正式的音色和语调根据文本的内容和预期听众调整语速和节奏,若文本为信息密集型的文本,选择缓慢语速,若内容为娱乐性内容,选择快语速。

17、本专利技术的另外一个目的是提供一种支持智能处理的语音合成系统,其能通过信息过滤函数和权重分配机制,确保每个词语在语音合成中的重要性得到合理体现。解决了目前的语音合成方法含有无法充分考虑词语在特定上下文中的重要性和适用性的问题。

18、作为本专利技术所述的支持智能处理的语音合成系统的一种优选方案,其中:包括语音资源整合模块,文本向量构建模块,语音合成模块;所述语音资源整合模块用于对输入文本集中管理并进行属性配置并转化为语音资源;所述文本向量构建模块用于进行文本预处理与分词,构建文本向量模型;所述语音合成模块用于进行信息过滤与权重调整,调整后输入复合模型生成数值型向量进行语音合成。

19、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序是实现支持智能处理的语音合成方法的步骤。

20、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现支持智能处理的语音合成方法的步骤。

21、本专利技术的有益效果:本专利技术提供的支持智能处理的语音合成方法本专利技术在通过信息过滤函数和权重分配机制,确保每个词语在语音合成中的重要性得到合理体现,充分考虑词语在特定上下文中的重要性和适用性。根据文本内容的特性,灵活选择不同的语音合成引擎,以适应不同类型的文本。采用jieba分词工具对文本进行预处理,构建文本向量模型,更有效地理解和处理文本数据。本专利技术在适用性、高效性以及灵活性方面都取得更加良好的效果。

本文档来自技高网...

【技术保护点】

1.一种支持智能处理的语音合成方法,其特征在于,包括:

2.如权利要求1所述的支持智能处理的语音合成方法,其特征在于:所述对输入文本集中管理配置属性并转化为语音资源包括通过创建任务的方式将需要批量合成的文本基于任务进行批量上传,基于任务来配置通用的属性。

3.如权利要求2所述的支持智能处理的语音合成方法,其特征在于:所述转化为语音资源包括词典配置、结构化规则配置以及模板音制作;

4.如权利要求3所述的支持智能处理的语音合成方法,其特征在于:所述构建文本向量模型包括将接收文本输入,并使用jieba分词工具进行预处理将文本分解为词语或短语并计算定义文本D的tf-jdf值,表示为:

5.如权利要求4所述的支持智能处理的语音合成方法,其特征在于:所述进行信息过滤与权重调整包括系统将使用信息过滤函数G(ti,D)处理每个词语的tf-jdf值,并为每个词语分配权重,表示为:

6.如权利要求5所述的支持智能处理的语音合成方法,其特征在于:所述调整后输入复合模型生成数值型向量包括将文本D转换为数值型向量,用于智能处理的语音合成,表示为:

7.如权利要求6所述的支持智能处理的语音合成方法,其特征在于:所述语音合成包括根据文本内容的特性选择合适的语音合成引擎,若文本内容包含专业输出出现频率超过10%,选择专业领域的语音合成引擎,若专业输出出现频率低于10%,视为日常对话,选择自然语言处理引擎;

8.一种采用如权利要求1~7任一所述的支持智能处理的语音合成方法的系统,其特征在于:包括语音资源整合模块,文本向量构建模块,语音合成模块;

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的支持智能处理的语音合成方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的支持智能处理的语音合成方法的步骤。

...

【技术特征摘要】

1.一种支持智能处理的语音合成方法,其特征在于,包括:

2.如权利要求1所述的支持智能处理的语音合成方法,其特征在于:所述对输入文本集中管理配置属性并转化为语音资源包括通过创建任务的方式将需要批量合成的文本基于任务进行批量上传,基于任务来配置通用的属性。

3.如权利要求2所述的支持智能处理的语音合成方法,其特征在于:所述转化为语音资源包括词典配置、结构化规则配置以及模板音制作;

4.如权利要求3所述的支持智能处理的语音合成方法,其特征在于:所述构建文本向量模型包括将接收文本输入,并使用jieba分词工具进行预处理将文本分解为词语或短语并计算定义文本d的tf-jdf值,表示为:

5.如权利要求4所述的支持智能处理的语音合成方法,其特征在于:所述进行信息过滤与权重调整包括系统将使用信息过滤函数g(ti,d)处理每个词语的tf-jdf值,并为每个词语分配权重,表示为:

6.如权利要求5所述的支持智能处理的语音合成方法,其特征...

【专利技术属性】
技术研发人员:卢志良梁寿愚敖榜刘懋董召杰吴石松姚森敬于力董若烟黄毅赵必美杨伟辛文成廖灿任正国郭尧王鹏凯郑桦李成
申请(专利权)人:南方电网人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1