音频处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号:29041340 阅读:15 留言:0更新日期:2021-06-26 05:51
本发明专利技术公开了一种音频处理方法、装置、设备及可读存储介质,所述方法包括:获取待处理音频,并将所述待处理音频转换为目标文本;对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像,由此将音频转化为相应的手语手势图像,从而提高了信息传输方式的多样性,进而提升用户体验。进而提升用户体验。进而提升用户体验。

【技术实现步骤摘要】
音频处理方法、装置、设备及可读存储介质


[0001]本专利技术涉及音频处理
,尤其涉及一种音频处理方法、装置、设备及可读存储介质。

技术介绍

[0002]信息本身是无形的,如果要使信息能被人理解和接受,必须将信息通过一定的方法表示出来,例如电视剧在播放视频或新闻信息时,通常采用视频结合音频或文字的方式进行信息传输,信息传输方式过于单一。
[0003]然而据最新研究数据表明,中国听障人群数量达到2.2亿,中度以上听力损失的有7000多万,由于目前大多数播放终端进行视频播放时仅支持音频播放,例如主流媒体的新闻直播节目大部分是不配手语播音员的同步播报及文字同步播报,即目前由于信息传输方式比较单一,而导致该类人员观看新闻直播节目时无法理解新闻内容,从而影响该类人员观看体验。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提供一种音频处理方法、装置、设备及可读存储介质,旨在解决目前信息传输方式过于单一而影响用户体验的技术问题。
[0006]为实现上述目的,本专利技术提供一种音频处理方法,所述音频处理方法包括以下步骤:
[0007]获取待处理音频,并将所述待处理音频转换为目标文本;
[0008]对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;
[0009]通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像。
[0010]优选地,所述将所述待处理音频转换为目标文本的步骤包括:
[0011]对所述待处理音频进行人声提取,以获得待处理音频中的目标人声音频;
[0012]对所述目标人声音频进行语义识别,以获得目标文本。
[0013]优选地,所述对所述待处理音频进行人声提取,以获得待处理音频中的目标人声音频的步骤包括:
[0014]获取所述待处理音频的音频特征;
[0015]将所述音频特征输入至预设音频分离模型,以通过所述预设音频分离模型获取所述音频特征对应的音频特征分离结果,其中,所述音频特征分离结果包括目标人声音频特征;
[0016]基于所述目标人声音频特征获取待处理音频中的目标人声音频。
[0017]优选地,所述通过预设手语手势转换模型获取所述文本特征数据对应的手语手势
图像的步骤之前,还包括:
[0018]获取初始模型及若干个文本训练数据;
[0019]通过所述初始模型确定所述文本训练数据对应的手语手势预测结果;
[0020]获取所述文本训练数据对应的手语手势真实结果,并基于所述手语手势预测结果和所述手语手势真实结果确定损失函数;
[0021]通过梯度下降的方式更新所述初始模型的模型参数,并将所述损失函数收敛或模型训练轮次达到预设训练迭代轮次时对应的模型参数作为最终模型参数;
[0022]根据所述最终模型参数确定预设手语手势转换模型。
[0023]优选地,所述将所述待处理音频转换为目标文本的步骤之后,还包括:
[0024]对所述目标文本进行分词处理,以获得所述目标文本对应的多组文本分词;
[0025]分别对各组所述文本分词进行语义识别,以获得各组所述文本分词对应的语义识别结果;
[0026]基于所述语义识别结果遍历预设手语手势文本词库,以获得预设手语手势文本词库中与所述语义识别结果匹配的目标手语手势文本;
[0027]基于所述目标手语手势文本获取所述多组文本分词对应的多帧手语手势图像,并显示所述多帧手语手势图像。
[0028]优选地,所述显示所述多帧手语手势图像的步骤包括:
[0029]确定各帧所述手语手势图像对应的各组文本分词在所述目标文本中的位置信息;
[0030]基于所述位置信息对所述多帧手语手势图像进行排序,以获得排序结果;
[0031]根据所述排序结果将所述多帧手语手势图像转化为目标手语手势图像,并将显示所述目标手语手势图像。
[0032]优选地,所述将显示所述目标手语手势图像的步骤包括:
[0033]确定所述待处理音频的音频帧时间戳;
[0034]基于所述音频帧时间戳确定所述目标手语手势图像的图像帧时间戳,以基于所述图像帧时间戳显示所述目标手语手势图像。
[0035]进一步地,为实现上述目的,本专利技术还提供一种音频处理装置,所述音频处理装置包括:
[0036]获取模块,用于获取待处理音频,并将所述待处理音频转换为目标文本;
[0037]提取模块,用于对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;
[0038]输出模块,用于通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像。
[0039]进一步地,为实现上述目的,本专利技术还提供一种音频处理设备,所述音频处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的音频处理程序,所述音频处理程序被所述处理器执行时实现如上述所述的音频处理方法的步骤。
[0040]进一步地,为实现上述目的,本专利技术还提供一种可读存储介质,所述可读存储介质上存储有音频处理程序,所述音频处理程序被处理器执行时实现如上所述的音频处理方法的步骤。
[0041]相较于现有的终端视频播放方式,本专利技术中通过获取待处理音频,并将所述待处
理音频转换为目标文本;对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;通过预设手语手势转换模型获取文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像,由此将音频转化为相应的手语手势图像,提高了信息传输方式的多样性,进而提升用户体验。
附图说明
[0042]图1为本专利技术音频处理设备实施例方案涉及的硬件运行环境的结构示意图;
[0043]图2为本专利技术音频处理方法第一实施例的流程示意图;
[0044]图3为本专利技术音频处理方法第二实施例的流程示意图;
[0045]图4为本专利技术音频处理方法第三实施例的流程示意图;
[0046]图5为本专利技术音频处理装置一实施例的功能模块示意图。
[0047]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0048]应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0049]本专利技术提供一种音频处理设备,参照图1,图1为本专利技术音频处理设备实施例方案涉及的硬件运行环境的结构示意图。
[0050]如图1所示,该音频处理设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,所述音频处理方法包括以下步骤:获取待处理音频,并将所述待处理音频转换为目标文本;对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像。2.如权利要求1所述的音频处理方法,其特征在于,所述将所述待处理音频转换为目标文本的步骤包括:对所述待处理音频进行人声提取,以获得待处理音频中的目标人声音频;对所述目标人声音频进行语义识别,以获得目标文本。3.如权利要求2所述的音频处理方法,其特征在于,所述对所述待处理音频进行人声提取,以获得待处理音频中的目标人声音频的步骤包括:获取所述待处理音频的音频特征;将所述音频特征输入至预设音频分离模型,以通过所述预设音频分离模型获取所述音频特征对应的音频特征分离结果,其中,所述音频特征分离结果包括目标人声音频特征;基于所述目标人声音频特征获取待处理音频中的目标人声音频。4.如权利要求1所述的音频处理方法,其特征在于,所述通过预设手语手势转换模型获取所述文本特征数据对应的手语手势图像的步骤之前,还包括:获取初始模型及若干个文本训练数据;通过所述初始模型确定所述文本训练数据对应的手语手势预测结果;获取所述文本训练数据对应的手语手势真实结果,并基于所述手语手势预测结果和所述手语手势真实结果确定损失函数;通过梯度下降的方式更新所述初始模型的模型参数,并将所述损失函数收敛或模型训练轮次达到预设训练迭代轮次时对应的模型参数作为最终模型参数;根据所述最终模型参数确定预设手语手势转换模型。5.如权利要求1所述的音频处理方法,其特征在于,所述将所述待处理音频转换为目标文本的步骤之后,还包括:对所述目标文本进行分词处理,以获得所述目标文本对应的多组文本分词;分别对各组所述文本分词进行语义识别,以获得...

【专利技术属性】
技术研发人员:田园
申请(专利权)人:深圳创维RGB电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1