语音翻译方法、语音翻译装置、电子设备及存储介质制造方法及图纸

技术编号：38621359 阅读：10 留言：0更新日期：2023-08-31 18:25

本申请提供了一种语音翻译方法、语音翻译装置、电子设备及存储介质，属于金融科技技术领域。方法包括：获取原始语音数据，基于语音翻译模型的语音识别网络对原始语音数据进行语音识别，得到初步语音隐状态特征；基于语音翻译模型的特征对齐网络对初步语音隐状态特征进行特征对齐，得到中间语音隐状态特征，中间语音隐状态特征包含原始语音数据的字符语义信息；基于语音翻译模型的特征变换网络对中间语音隐状态特征进行特征变换，得到目标语音隐状态特征，目标语音隐状态特征包含原始语音数据的词语语义信息；基于语音翻译模型的语音翻译网络和目标语音隐状态特征进行语音翻译，得到翻译文本数据。本申请能够提高金融场景中的语音翻译的准确性。语音翻译的准确性。语音翻译的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音翻译方法、语音翻译装置、电子设备及存储介质

[0001]本申请涉及金融科技
，尤其涉及一种语音翻译方法、语音翻译装置、电子设备及存储介质。

技术介绍

[0002]随着网络、通讯、计算机技术的发展，企业呈现出电子化、远程化、虚拟化、网络化的特点，更多的线上企业大量涌现。而客户与企业之间的通信与对话，也由面对面的咨询、交涉发展到基于网络、电话等远程手段的交流和沟通。在此背景下，智能语音交互在被广泛应用于金融、物流、客服等领域。
[0003]目前，基于语音交互的金融交易平台每天都面对着大量的电话语音服务，处理客户多样化的服务需求，包括售前咨询、购买、售后、投诉等。在电话服务的过程中，智能客服机器人需要应对不同的服务对象，并作出合适的反应。如果智能客服在对话交流中无法准确地识别到不同方言、不同语种的服务对象在语音数据中所表征的诉求，会导致基于语音数据反馈的服务应答不符合对象需求等问题，影响服务质量和对象满意度。
[0004]目前，在语音翻译时，常常通过预训练模型构建级联的语音翻译系统来实现语音翻译，但这一方式构建的语音翻译系统往往在提取语音数据的语音特征信息时会存在特征信息缺失、提取过程复杂等问题，会导致语音翻译的准确性较差，翻译效率不高。

技术实现思路

[0005]本申请实施例的主要目的在于提出一种语音翻译方法、语音翻译装置、电子设备及存储介质，旨在提高语音翻译的准确性和效率。
[0006]为实现上述目的，本申请实施例的第一方面提出了一种语音翻译方法，所述方法包括：
>[0007]获取原始语音数据；
[0008]将所述原始语音数据输入至预先训练的语音翻译模型中，所述语音翻译模型包括语音识别网络、特征对齐网络、特征变换网络以及语音翻译网络；
[0009]基于所述语音识别网络对所述原始语音数据进行语音识别，得到初步语音隐状态特征；
[0010]基于所述特征对齐网络对所述初步语音隐状态特征进行特征对齐，得到中间语音隐状态特征，其中，所述中间语音隐状态特征包含所述原始语音数据的字符语义信息；
[0011]基于所述特征变换网络对所述中间语音隐状态特征进行特征变换，得到目标语音隐状态特征，其中，所述目标语音隐状态特征包含所述原始语音数据的词语语义信息；
[0012]基于所述语音翻译网络和目标语音隐状态特征进行语音翻译，得到所述原始语音数据的翻译文本数据。
[0013]在一些实施例，所述基于所述特征对齐网络对所述初步语音隐状态特征进行特征对齐，得到中间语音隐状态特征，包括：
[0014]基于所述原始语音数据中字符的字符位置，对所述初步语音隐状态特征进行分类，得到每个所述字符的特征集合，每个所述特征集合包括至少一个所述初步语音隐状态特征；
[0015]基于所述特征对齐网络对同一所述特征集合的初步语音隐状态特征进行均值计算，得到所述中间语音隐状态特征。
[0016]在一些实施例，所述特征变换网络包括第一Bi
‑
LSTM层、第二Bi
‑
LSTM层和第三Bi
‑
LSTM层，所述基于所述特征变换网络对所述中间语音隐状态特征进行特征变换，得到目标语音隐状态特征，包括：
[0017]通过所述第一Bi
‑
LSTM层对所述中间语音隐状态特征进行第一上下文本提取，得到第一语义融合向量；
[0018]通过所述第二Bi
‑
LSTM层对所述第一语义融合向量进行第二上下文本提取，得到第二语义融合向量；
[0019]通过所述第三Bi
‑
LSTM层对所述第二语义融合向量进行第三上下文本提取，得到所述目标语音隐状态特征。
[0020]在一些实施例，所述语音翻译网络包括编码器、解码器，所述基于所述语音翻译网络和目标语音隐状态特征进行语音翻译，得到所述原始语音数据的翻译文本数据，包括：
[0021]通过所述编码器对所述目标语音隐状态特征进行语义分析，得到语音上下文特征向量；
[0022]通过所述解码器对所述语音上下文特征向量进行内容识别，得到翻译文本序列；
[0023]将所述翻译文本序列映射到预设的数据空间，得到所述翻译文本数据。
[0024]在一些实施例，在所述将所述原始语音数据输入至预先训练的语音翻译模型中之前，所述方法还包括预先训练所述语音翻译模型，具体包括：
[0025]获取样本音频的样本音频数据和样本翻译文本；
[0026]将所述样本音频数据和所述样本翻译文本输入至所述语音翻译模型中；
[0027]基于所述语音识别网络对所述样本音频数据进行语音识别，得到第一样本语音隐状态特征；
[0028]基于所述特征对齐网络对所述第一样本语音隐状态特征进行特征对齐，得到第二样本语音隐状态特征，其中，所述第二样本语音隐状态特征包含所述样本音频数据的字符语义信息；
[0029]基于所述特征变换网络对所述第二样本语音隐状态特征进行特征变换，得到第三样本语音隐状态特征，其中，所述第三样本语音隐状态特征包含所述样本音频数据的词语语义信息；
[0030]基于所述语音翻译网络对第三样本语音隐状态特征和所述样本翻译文本进行相似度评分，得到样本评分数据；
[0031]基于所述样本评分数据对所述语音翻译模型的模型参数进行更新。
[0032]在一些实施例，所述语音翻译网络包括嵌入层和编码层，所述基于所述语音翻译网络对第三样本语音隐状态特征和所述样本翻译文本进行相似度评分，得到样本评分数据，包括：
[0033]基于所述嵌入层对所述样本翻译文本进行语言嵌入，得到所述样本翻译文本对应
的翻译语言嵌入特征，并基于所述嵌入层对所述样本翻译文本进行内容嵌入，得到所述样本翻译文本的样本文本嵌入特征；
[0034]基于所述编码层对所述样本文本嵌入特征进行编码处理，得到样本翻译文本表征向量，并基于所述编码层对所述翻译语言嵌入特征和所述第三样本语音隐状态特征进行编码处理，得到样本语音表征向量；
[0035]基于所述样本语音表征向量和所述样本翻译文本表征向量对进行相似度评分，得到所述样本评分数据。
[0036]在一些实施例，所述基于所述样本语音表征向量和所述样本翻译文本表征向量对进行相似度评分，得到所述样本评分数据，包括：
[0037]针对每个所述样本音频，计算所述样本语音表征向量和所述样本翻译文本表征向量之间的相似分数；
[0038]根据所有所述样本音频的相似分数，得到所述样本评分数据。
[0039]为实现上述目的，本申请实施例的第二方面提出了一种语音翻译装置，所述装置包括：
[0040]语音数据获取模块，用于获取原始语音数据；
[0041]输入模块，用于将所述原始语音数据输入至预先训练的语音翻译模型中，所述语音翻译模型包括语音识别网络、特征对齐网络、特征变换网络以及语音翻译网络；
[0042]语音识别模块本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音翻译方法，其特征在于，所述方法包括：获取原始语音数据；将所述原始语音数据输入至预先训练的语音翻译模型中，所述语音翻译模型包括语音识别网络、特征对齐网络、特征变换网络以及语音翻译网络；基于所述语音识别网络对所述原始语音数据进行语音识别，得到初步语音隐状态特征；基于所述特征对齐网络对所述初步语音隐状态特征进行特征对齐，得到中间语音隐状态特征，其中，所述中间语音隐状态特征包含所述原始语音数据的字符语义信息；基于所述特征变换网络对所述中间语音隐状态特征进行特征变换，得到目标语音隐状态特征，其中，所述目标语音隐状态特征包含所述原始语音数据的词语语义信息；基于所述语音翻译网络和目标语音隐状态特征进行语音翻译，得到所述原始语音数据的翻译文本数据。2.根据权利要求1所述的语音翻译方法，其特征在于，所述基于所述特征对齐网络对所述初步语音隐状态特征进行特征对齐，得到中间语音隐状态特征，包括：基于所述原始语音数据中字符的字符位置，对所述初步语音隐状态特征进行分类，得到每个所述字符的特征集合，每个所述特征集合包括至少一个所述初步语音隐状态特征；基于所述特征对齐网络对同一所述特征集合的初步语音隐状态特征进行均值计算，得到所述中间语音隐状态特征。3.根据权利要求1所述的语音翻译方法，其特征在于，所述特征变换网络包括第一Bi
‑
LSTM层、第二Bi
‑
LSTM层和第三Bi
‑
LSTM层，所述基于所述特征变换网络对所述中间语音隐状态特征进行特征变换，得到目标语音隐状态特征，包括：通过所述第一Bi
‑
LSTM层对所述中间语音隐状态特征进行第一上下文本提取，得到第一语义融合向量；通过所述第二Bi
‑
LSTM层对所述第一语义融合向量进行第二上下文本提取，得到第二语义融合向量；通过所述第三Bi
‑
LSTM层对所述第二语义融合向量进行第三上下文本提取，得到所述目标语音隐状态特征。4.根据权利要求1所述的语音翻译方法，其特征在于，所述语音翻译网络包括编码器、解码器，所述基于所述语音翻译网络和目标语音隐状态特征进行语音翻译，得到所述原始语音数据的翻译文本数据，包括：通过所述编码器对所述目标语音隐状态特征进行语义分析，得到语音上下文特征向量；通过所述解码器对所述语音上下文特征向量进行内容识别，得到翻译文本序列；将所述翻译文本序列映射到预设的数据空间，得到所述翻译文本数据。5.根据权利要求1至4任一项所述的语音翻译方法，其特征在于，在所述将所述原始语音数据输入至预先训练的语音翻译模型中之前，所述方法还包括预先训练所述语音翻译模型，具体包括：获取样本音频的样本音频数据和样本翻译文本；将所述样本音频数据和所述样本翻译文本输入至所述语音翻译模型中；
基于所述语音识别网络对所述样本音频数据进行语音识别，得到第一样本语音隐状态特征；基于所述...

【专利技术属性】
技术研发人员：凌天东，程宁，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人