【技术实现步骤摘要】
语音转文字处理方法、模型训练方法、装置、设备及介质
[0001]本专利技术主要涉及到语音处理
,尤其是一种语音转文字处理方法
、
模型训练方法
、
装置
、
设备及介质
。
技术介绍
[0002]语音识别转文字是一项便捷的技术,它可以将人的语音输入转化为文字,并在电脑和手机等设备上进行使用
。
[0003]作为一种技术,虽然语音转文字技术在很大程度上已经取得了进步,但仍然存在着以下问题:断句
、
标点符号
、
语气词
、
填充词
、
数字未标准化等,这些问题限制着语音转文字的发展,也是影响生成结果文本可读性的一个巨大挑战
。
[0004]为了解决这些限制和挑战,进行文本后处理是一种常见的方法
。
文本后处理可以通过校正
、
校验
、
编辑和优化转换后的文本,以提高文本质量和可读性
。
而通过文本后处理解决上 ...
【技术保护点】
【技术特征摘要】
1.
语音转文字处理模型训练方法,其特征在于,包括:获取原始音频数据对应的原始文本数据;编写断句
、
添加标点符号
、
去除语气冗余词的文本美化模板,将原始文本数据嵌入文本美化模板中后输入
ChatGpt
进行文本初处理,得到初始文本修正语料;编写数字标准化模板,将初始文本修正语料嵌入所述数字标准化模板后输入
ChatGpt
进行文本后处理,得到最终文本修正语料,所述最终文本修正语料作为原始文本数据对应的目标处理文本;编写断句
、
添加标点符号
、
去除语气冗余词以及数字标准化的文本处理总模板,将所述原始文本数据嵌入所述文本处理总模板作为训练文本;将所述原始文本数据对应的训练文本
、
目标处理文本输入预先构建的基于神经网络的语音转文字处理模型中,对所述语音转文字处理模型进行训练,得到训练好的语音转文字处理模型
。2.
根据权利要求1所述的语音转文字处理模型训练方法,其特征在于,所述原始音频数据为金融行业商业路演音频数据
。3.
根据权利要求1或2所述的语音转文字处理模型训练方法,其特征在于,所述语音转文字处理模型的训练过程,包括:将所述原始文本数据对应的训练文本
、
目标处理文本映射为对应的训练文本向量和目标处理文本向量;将所述训练文本向量输入
LLM
模型中,得到预测结果向量;通过前向传播,计算预测结果向量和目标处理文本向量之间的损失函数;通过反向传播,根据优化器更新
LLM
模型参数,使得
LLM
模型在训练过程中不断进行学习,一直到最后损失函数无法继续降低,保存好此时的
LLM
模型参数,得到训练好的语音转文字处理模型
。4.
根据权利要求3所述的语音转文字处理模型训练方法,其特征在于,将所述原始文本数据对应的训练文本
、
目标处理文本映射为对应的训练文本向量和目标处理文本向量,包括:通过
padding
操作将所述原始文本数据对应的训练文本
、
目标处理文本分别
padding
至最大预设长度;通过预设的
token
字典将
padding
操作后的所述原始文本数据对应的训练文本
、
目标处理文本映射为训练文本字符级索引序列
、
目标处理文本字符级索引序列;将训练文本字符级索引序列
、
目标处理文本字符级索引序列输入至
embedding
层,将所述训练文本字符级索引序列
、
目标处理文本字符级索引序列分别映射为对应的训练文本向量和目标处理文本向量
。5.
语音转文字处理模型训练装置,其特征在于,包括:第一模块,用于获取原始音频数据对应的原始文本数据;第二模块,用于...
【专利技术属性】
技术研发人员:欧阳康,白雪,孙小强,
申请(专利权)人:长沙丹渥智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。