文本转换语音方法、装置、设备及介质制造方法及图纸

技术编号:45655045 阅读:16 留言:0更新日期:2025-06-27 18:56
本发明专利技术涉及语言信号处理领域、金融科技领域以及医疗健康领域,公开了一种文本转换语音方法、装置、设备及介质,包括:对目标文本进行文本分词处理以及词性标注处理,得到预处理文本,利用预设的双自回归架构根据预处理文本生成输出编码,利用解码器根据输出编码生成梅尔频谱,利用编码架构对梅尔频谱进行量化重构处理,得到量化张量,计算量化张量与梅尔频谱的张量损失值,基于反向传播算法根据张量损失值优化编码器架构的参数,基于优化后的编码架构根据预先获取的待处理文本生成提示编码,结合提示编码以及待处理文本生成待处理梅尔频谱,利用预设的声码器根据待处理梅尔频谱生成目标音频。提高了文本转音频的效率这准确度。

【技术实现步骤摘要】

本专利技术涉及语言信号处理领域、金融科技领域以及医疗健康领域,尤其涉及一种文本转换语音方法、装置、设备及介质


技术介绍

1、在医疗健康和金融领域,文本转语音技术的应用日益广泛,然而现有技术在满足各领域特殊需求和应对复杂情况时,仍暴露出诸多问题。在医疗健康领域,医疗文本信息丰富多样,涵盖病历记录、医嘱说明、医学研究报告等。由于医学术语的专业性、复杂性以及表述的多样性,现有的文本转语音方法难以精准把握其发音规则与语义重点。例如,对于一些罕见病的名称、复杂的药物化学名,转换后的语音常出现发音错误或语调不自然的情况,这不仅影响医护人员对信息的准确获取,还可能在患者接收健康指导时造成误解。同时,医疗场景中对语音的情感表达和个性化需求较高,如向患者传达病情时需温和、关切的语气,但现有技术在情感模拟方面能力有限,无法灵活调整语音风格以适配不同的沟通场景。

2、在金融科技领域,文本转语音技术常用于金融资讯播报、客户服务引导以及交易信息提示等场景。金融文本内容包含大量精确的数字、复杂的金融术语和实时变化的市场动态信息。现有的文本转语音方法在处理这些内容时,容易本文档来自技高网...

【技术保护点】

1.一种文本转换语音方法,其特征在于,包括:

2.如权利要求1所述的文本转换语音方法,其特征在于,所述利用预设的双自回归架构根据所述预处理文本生成输出编码,包括:

3.如权利要求2所述的文本转换语音方法,其特征在于,所述利用预设的慢速Transformer层根据所述文本嵌入生成隐状态向量,包括:

4.如权利要求2所述的文本转换语音方法,其特征在于,所述利用预设的快速Transformer层根据所述拼接向量生成输出编码,包括:

5.如权利要求1所述的文本转换语音方法,其特征在于,所述利用预设的编码架构对所述梅尔频谱进行量化重构处理,得到量化张...

【技术特征摘要】

1.一种文本转换语音方法,其特征在于,包括:

2.如权利要求1所述的文本转换语音方法,其特征在于,所述利用预设的双自回归架构根据所述预处理文本生成输出编码,包括:

3.如权利要求2所述的文本转换语音方法,其特征在于,所述利用预设的慢速transformer层根据所述文本嵌入生成隐状态向量,包括:

4.如权利要求2所述的文本转换语音方法,其特征在于,所述利用预设的快速transformer层根据所述拼接向量生成输出编码,包括:

5.如权利要求1所述的文本转换语音方法,其特征在于,所述利用预设的编码架构对所述梅尔频谱进行量化重构处理,得到量化张量,包括:

6.如权利要求1所述的文...

【专利技术属性】
技术研发人员:孙奥兰王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1