【技术实现步骤摘要】
本专利技术涉及语言信号处理领域、金融科技领域以及医疗健康领域,尤其涉及一种文本转换语音方法、装置、设备及介质。
技术介绍
1、在医疗健康和金融领域,文本转语音技术的应用日益广泛,然而现有技术在满足各领域特殊需求和应对复杂情况时,仍暴露出诸多问题。在医疗健康领域,医疗文本信息丰富多样,涵盖病历记录、医嘱说明、医学研究报告等。由于医学术语的专业性、复杂性以及表述的多样性,现有的文本转语音方法难以精准把握其发音规则与语义重点。例如,对于一些罕见病的名称、复杂的药物化学名,转换后的语音常出现发音错误或语调不自然的情况,这不仅影响医护人员对信息的准确获取,还可能在患者接收健康指导时造成误解。同时,医疗场景中对语音的情感表达和个性化需求较高,如向患者传达病情时需温和、关切的语气,但现有技术在情感模拟方面能力有限,无法灵活调整语音风格以适配不同的沟通场景。
2、在金融科技领域,文本转语音技术常用于金融资讯播报、客户服务引导以及交易信息提示等场景。金融文本内容包含大量精确的数字、复杂的金融术语和实时变化的市场动态信息。现有的文本转语音方法在
...【技术保护点】
1.一种文本转换语音方法,其特征在于,包括:
2.如权利要求1所述的文本转换语音方法,其特征在于,所述利用预设的双自回归架构根据所述预处理文本生成输出编码,包括:
3.如权利要求2所述的文本转换语音方法,其特征在于,所述利用预设的慢速Transformer层根据所述文本嵌入生成隐状态向量,包括:
4.如权利要求2所述的文本转换语音方法,其特征在于,所述利用预设的快速Transformer层根据所述拼接向量生成输出编码,包括:
5.如权利要求1所述的文本转换语音方法,其特征在于,所述利用预设的编码架构对所述梅尔频谱进行量化
...【技术特征摘要】
1.一种文本转换语音方法,其特征在于,包括:
2.如权利要求1所述的文本转换语音方法,其特征在于,所述利用预设的双自回归架构根据所述预处理文本生成输出编码,包括:
3.如权利要求2所述的文本转换语音方法,其特征在于,所述利用预设的慢速transformer层根据所述文本嵌入生成隐状态向量,包括:
4.如权利要求2所述的文本转换语音方法,其特征在于,所述利用预设的快速transformer层根据所述拼接向量生成输出编码,包括:
5.如权利要求1所述的文本转换语音方法,其特征在于,所述利用预设的编码架构对所述梅尔频谱进行量化重构处理,得到量化张量,包括:
6.如权利要求1所述的文...
【专利技术属性】
技术研发人员:孙奥兰,王健宗,程宁,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。