5G富媒体消息语音转文本系统、方法、电子设备及介质技术方案

技术编号:38374121 阅读:32 留言:0更新日期:2023-08-05 17:36
本发明专利技术实施例公开了一种5G富媒体消息语音转文本系统、方法、电子设备及介质,包括:获取5G富媒体消息中的视频信息,基于视频信息构建视频消息信息集合Y,基于视频消息信息集合Y构建训练集;构建改进CTC模型,其中,改进CTC模型是在CTC模型的基础上引入最大熵函数对CTC模型中CTC原有损失函数进行改进;通过训练集对改进CTC模型进行训练,得到训练好的改进CTC模型;通过训练好的改进CTC模型将视频消息信息集合Y转换为视频文本集合y。该5G富媒体消息语音转文本方法解决现有技术中随着语音环境中噪音的增大,CTC模型识别周期增长的问题。CTC模型识别周期增长的问题。CTC模型识别周期增长的问题。

【技术实现步骤摘要】
5G富媒体消息语音转文本系统、方法、电子设备及介质


[0001]本专利技术涉及计算机
,具体涉及一种5G富媒体消息语音转文本系统、方法、电子设备及介质。

技术介绍

[0002]5G富媒体消息是短消息行业通信能力一次重大的飞跃,相比于传统文字短信而言,5G富媒体消息支持的媒体格式更多,表现形式更丰富,不仅可以发送长文本、图片、语音、视频等富媒体信息,还包括了公众号、小程序等用户交互和反馈能力,使得5G富媒体消息的应用场景、内容质量、使用范围都极大的提升。
[0003]5G富媒体消息往往存在于营销类的视频素材中,背景声音掺杂丰富的噪音,传统CTC模型的解码方案虽然有效的解决了基于注意力语音识别方法中存在的未对准问题,但是随着语音环境中噪音的增大,传统CTC模型通过最大似然估计学习找寻的可行路径的概率会呈指数增加,并且一旦传统CTC模型找到了主要的可行路径,错误信息也会集中在该条路径附近,使得识别周期被剧烈的放大。考虑到5G富媒体消息发送的高效性和及时性,5G富媒体消息语音转文本不能选择处理时间过长的深度学习神经网络算法。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种5G富媒体消息语音转文本方法,其特征在于,所述方法具体包括:获取5G富媒体消息中的视频信息,基于所述视频信息构建视频消息信息集合Y,基于所述视频消息信息集合Y构建训练集;构建改进CTC模型,其中,所述改进CTC模型是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进;通过所述训练集对所述改进CTC模型进行训练,得到训练好的改进CTC模型;通过训练好的所述改进CTC模型将所述视频消息信息集合Y转换为视频文本集合y。2.根据权利要求1所述5G富媒体消息语音转文本方法,其特征在于,所述5G富媒体消息语音转文本方法还包括:获取5G富媒体消息中的文本消息;基于所述文本消息和所述视频文本集合y构建文本消息信息集合X;构建敏感词变体识别模型;将所述文本消息信息集合X中的文本消息依次输入所述敏感词变体识别模型判断所述文本消息信息集合X中的所有文本消息是否全部合规。3.根据权利要求2所述5G富媒体消息语音转文本方法,其特征在于,所述5G富媒体消息语音转文本方法还包括:获取5G富媒体消息中的图片消息,基于所述图片消息构建图片消息信息集合Z;构建不良图片分类模型和特征提取模型;基于所述特征提取模型对所述图片消息信息集合Z进行特征提取得到图片深度特征集合z;将所述图片深度特征集合z中的图片依次输入所述不良图片分类模型判断所述图片深度特征集合z中的所有图片是否全部合规。4.根据权利要求3所述5G富媒体消息语音转文本方法,其特征在于,所述5G富媒体消息语音转文本方法还包括:当所述文本消息信息集合X中的所有文本消息全部合规,且所述图片深度特征集合z中的图片全部合规时,判定所述5G富媒体消息可以正常发送。5.根据权利要求1所述5G富媒体消息语音转文本方法,其特征在于,所述构建改进CTC模型,其中,所述改进CTC模型是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进,包括:通过公式1对所述CTC原有损失函数进行改进;式中,为所述改进CTC模型的损失函数,为CTC原有损失函数,α为最大条件熵正...

【专利技术属性】
技术研发人员:沈浩黄海量吴东进韩松乔吴优
申请(专利权)人:上海帜讯信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1