多用户流式语音识别方法、系统、设备及介质技术方案

技术编号:23772042 阅读:60 留言:0更新日期:2020-04-12 00:41
本发明专利技术公开了一种多用户流式语音识别方法、系统、设备及介质,其中多用户流式语音识别方法包括:从若干个通话线路中获取对应的若干用户的音频流;根据音频信息和身份信息生成请求对象;利用语音识别模型解析请求对象中的音频信息得到与身份信息对应的解码结果;判断音频流是否为静音,若否,则调用部分解码器解析解码结果得到中间识别文字,若是,则调用最终解码器,解析解码结果得到最终识别文字。本发明专利技术实现了并行多用户的通话语音的实时识别,也极大了提高了音频识别的速度,提高了客服的通话处理操作速度,提升了OTA智能客服的响应速度,让多个用户在对话中均不需要长时间的文字识别的等待,提升了用户良好的通话感受。

Multi user streaming speech recognition method, system, equipment and media

【技术实现步骤摘要】
多用户流式语音识别方法、系统、设备及介质
本专利技术涉及语音识别领域,尤其涉及一种多用户流式语音识别方法、系统、设备及介质。
技术介绍
OTA(在线旅游)行业中,当OTA智能客服通过电话与客人或酒店方进行实时语音沟通时,OTA智能客服需要实时识别出客人或酒店表达的语音信息,在识别出该信息之后,通过文本回复手段作出反馈回应。在OTA行业中,通常是多个OTA智能客服同时与多个用户并行通话,而在现有技术中,对实时流式语音识别只限于音频片段的离线语音识别,只能对于单用户的流式音频进行语音识别,对于OTA行业中的多个用户并行通话时的音频流实时的语音识别无法适用。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中无法实现OTA行业中的多个用户在线并行通话时的音频流实时的语音识别的缺陷,提供一种多用户流式语音识别方法、系统、设备及介质。本专利技术是通过下述技术方案来解决上述技术问题:一种多用户流式语音识别方法,所述多用户流式语音识别方法包括:从若干个通话线路中获取对应的若干用户的音频流,所述音频流包括音频信息和所述用户的身份信息;根据所述音频信息和所述身份信息生成请求对象;利用语音识别模型解析所述请求对象中的所述音频信息得到与所述身份信息对应的解码结果;判断所述音频流中的音频信息是否为静音,若否,则调用部分解码器解析所述解码结果得到与所述音频流的所述用户的身份信息对应的中间识别文字,若是,则调用最终解码器,解析所述解码结果得到与所述音频流的所述用户的身份信息对应的最终识别文字。优选地,所述语音识别模型为时延神经网络模型;和/或,所述从若干个通话线路中获取对应的用户的音频流的步骤之前包括:初始化特征抽取器;初始化语音识别模型的初始参数;初始化语音解码器,所述语音解码器包括部分解码器和最终解码器;所述利用语音识别模型解析所述请求对象中的所述音频信息得到与所述身份信息对应的解码结果的步骤包括:利用所述特征抽取器对所述请求对象中的所述音频信息进行特征提取得到所述身份信息对应的特征信息;利用所述语音识别模型解析所述特征信息得到所述解码结果。优选地,所述多用户流式语音识别方法包括:在主线程中从若干个通话线路中获取对应的用户的音频流,以及根据所述音频信息和所述身份信息生成请求对象;在主线程中将所述请求对象添加入请求队列中;在主线程中设置与请求对象相对应的返回对象;在子线程中获取所述请求队列中的所述请求对象,判断所述请求对象中的所述身份信息是否为首次传输的新用户,若是,则初始化所述语音识别模型的环境参数,并利用所述语音识别模型根据所述请求对象解析所述音频信息得到所述身份信息对应的所述解码结果;若否,则直接利用所述语音识别模型得到所述解码结果;在所述子线程中判断所述音频流中的音频信息是否为静音,若否,则调用部分解码器解析所述解码结果得到与所述音频流的所述用户的身份信息对应的中间识别文字,若是,则调用最终解码器,解析所述解码结果得到与所述音频流的所述用户的身份信息对应的最终识别文字;并将文字识别结果赋值至所述返回对象;所述主线程处理所述返回对象。优选地,所述主线程处理所述返回对象的步骤包括:在所述主线程中定期查询所述请求对象对应的所述返回对象中是否有文字识别结果,若是,则显示所述文字识别结果。优选地,所述判断所述音频流是否为静音的步骤包括:利用端点检测模型判断所述音频流中的音频信息是否为静音;其中,所述端点检测模型包括输入层、音频CNN层、拼接层、卷积层、全连接层和输出层;所述输入层用于接收测试音频的帧信息并对所述帧信息进行特征提取得到预设维度的特征;所述音频CNN层包括若干路相并行的一维卷积层,所述音频CNN层用于通过所述一维卷积层分别对所述预设维度的特征进行卷积计算并得到每一路所述一维卷积层对应的第一特征数据;所述拼接层用于对所述第一特征数据进行连接得到第二特征数据;所述卷积层用于对所述第二特征数据进行卷积计算得到第三特征数据;所述全连接层用于根据所述第三特征数据得到所述帧信息的概率;所述输出层用于根据所述概率得到所述测试音频是否为静音的判断结果。一种多用户流式语音识别系统,所述多用户流式语音识别系统包括传输模块、生成模块、解码模块、识别模块;所述传输模块从若干个通话线路中获取对应的若干用户的音频流,所述音频流包括音频信息和所述用户的身份信息;所述生成模块用于根据所述音频信息和所述身份信息生成请求对象;所述解码模块用于利用语音识别模型解析所述请求对象中的所述音频信息得到与所述身份信息对应的解码结果;所述识别模块用于判断所述音频流中的音频信息是否为静音,若否,则调用部分解码器解析所述解码结果得到与所述音频流的所述用户的身份信息对应的中间识别文字,若是,则调用最终解码器,解析所述解码结果得到与所述音频流的所述用户的身份信息对应的最终识别文字。优选地,所述语音识别模型为时延神经网络模型;和/或,所述多用户流式语音识别系统还包括初始化模块;所述初始化模块用于初始化特征抽取器;还用于初始化语音识别模型的初始参数;还用于初始化语音解码器,所述语音解码器包括部分解码器和最终解码器;所述解码模块还用于利用所述特征抽取器对所述请求对象中的所述音频信息进行特征提取得到所述身份信息对应的特征信息;以及利用所述语音识别模型解析所述特征信息得到所述解码结果。优选地,所述多用户流式语音识别系统包括主线程和子线程;所述主线程用于从若干个通话线路中获取对应的用户的音频流,以及根据所述音频信息和所述身份信息生成请求对象;所述主线程还用于将所述请求对象添加入请求队列中;所述主线程还用于设置与请求对象相对应的返回对象;所述子线程用于获取所述请求队列中的所述请求对象,并判断所述请求对象中的所述身份信息是否为首次传输的新用户,若是,则初始化所述语音识别模型的环境参数,还用于利用所述语音识别模型根据所述请求对象解析所述音频信息得到所述身份信息对应的所述解码结果;若否,则直接利用所述语音识别模型得到所述解码结果;所述子线程还用于判断所述音频流中的音频信息是否为静音,若否,则调用部分解码器解析所述解码结果得到与所述音频流的所述用户的身份信息对应的中间识别文字,若是,则调用最终解码器,解析所述解码结果得到与所述音频流的所述用户的身份信息对应的最终识别文字;所述主线程还用于处理所述返回对象。优选地,所述主线程还用于在所述主线程中定期查询所述请求对象对应的所述返回对象中是否有文字识别结果,若是,则显示所述文字识别结果。优选地,所述识别模块还用于利用端点检测模型判断所述音频流中的音频信息是否为静音;其中,所述端点检测模型包括输入层、音频CNN层、拼接层、卷积层、全连接层和输出层;<本文档来自技高网...

【技术保护点】
1.一种多用户流式语音识别方法,其特征在于,所述多用户流式语音识别方法包括:/n从若干个通话线路中获取对应的若干用户的音频流,所述音频流包括音频信息和所述用户的身份信息;/n根据所述音频信息和所述身份信息生成请求对象;/n利用语音识别模型解析所述请求对象中的所述音频信息得到与所述身份信息对应的解码结果;/n判断所述音频流中的音频信息是否为静音,若否,则调用部分解码器解析所述解码结果得到与所述音频流的所述用户的身份信息对应的中间识别文字,若是,则调用最终解码器,解析所述解码结果得到与所述音频流的所述用户的身份信息对应的最终识别文字。/n

【技术特征摘要】
1.一种多用户流式语音识别方法,其特征在于,所述多用户流式语音识别方法包括:
从若干个通话线路中获取对应的若干用户的音频流,所述音频流包括音频信息和所述用户的身份信息;
根据所述音频信息和所述身份信息生成请求对象;
利用语音识别模型解析所述请求对象中的所述音频信息得到与所述身份信息对应的解码结果;
判断所述音频流中的音频信息是否为静音,若否,则调用部分解码器解析所述解码结果得到与所述音频流的所述用户的身份信息对应的中间识别文字,若是,则调用最终解码器,解析所述解码结果得到与所述音频流的所述用户的身份信息对应的最终识别文字。


2.如权利要求1所述的多用户流式语音识别方法,其特征在于,所述语音识别模型为时延神经网络模型;
和/或,所述从若干个通话线路中获取对应的用户的音频流的步骤之前包括:
初始化特征抽取器;
初始化语音识别模型的初始参数;
初始化语音解码器,所述语音解码器包括部分解码器和最终解码器;
所述利用语音识别模型解析所述请求对象中的所述音频信息得到与所述身份信息对应的解码结果的步骤包括:
利用所述特征抽取器对所述请求对象中的所述音频信息进行特征提取得到所述身份信息对应的特征信息;
利用所述语音识别模型解析所述特征信息得到所述解码结果。


3.如权利要求1所述的多用户流式语音识别方法,其特征在于,所述多用户流式语音识别方法包括:
在主线程中从若干个通话线路中获取对应的用户的音频流,以及根据所述音频信息和所述身份信息生成请求对象;
在主线程中将所述请求对象添加入请求队列中;
在主线程中设置与请求对象相对应的返回对象;
在子线程中获取所述请求队列中的所述请求对象,判断所述请求对象中的所述身份信息是否为首次传输的新用户,若是,则初始化所述语音识别模型的环境参数,并利用所述语音识别模型根据所述请求对象解析所述音频信息得到所述身份信息对应的所述解码结果;若否,则直接利用所述语音识别模型得到所述解码结果;
在所述子线程中判断所述音频流中的音频信息是否为静音,若否,则调用部分解码器解析所述解码结果得到与所述音频流的所述用户的身份信息对应的中间识别文字,若是,则调用最终解码器,解析所述解码结果得到与所述音频流的所述用户的身份信息对应的最终识别文字;并将文字识别结果赋值至所述返回对象;
所述主线程处理所述返回对象。


4.如权利要求3所述的多用户流式语音识别方法,其特征在于,所述主线程处理所述返回对象的步骤包括:
在所述主线程中定期查询所述请求对象对应的所述返回对象中是否有文字识别结果,若是,则显示所述文字识别结果。


5.如权利要求1所述的多用户流式语音识别方法,其特征在于,所述判断所述音频流是否为静音的步骤包括:
利用端点检测模型判断所述音频流中的音频信息是否为静音;
其中,所述端点检测模型包括输入层、音频CNN层、拼接层、卷积层、全连接层和输出层;
所述输入层用于接收测试音频的帧信息并对所述帧信息进行特征提取得到预设维度的特征;
所述音频CNN层包括若干路相并行的一维卷积层,所述音频CNN层用于通过所述一维卷积层分别对所述预设维度的特征进行卷积计算并得到每一路所述一维卷积层对应的第一特征数据;
所述拼接层用于对所述第一特征数据进行连接得到第二特征数据;
所述卷积层用于对所述第二特征数据进行卷积计算得到第三特征数据;
所述全连接层用于根据所述第三特征数据得到所述帧信息的概率;
所述输出层用于根据所述概率得到所述测试音频是否为静音的判断结果。


6.一种多用户流式语音识别系统,其特征在于,所述多用户流式语音识别系统包括传输模块、生成模块、解码模块、识别模块;
所述传输模块从若干个通话线路中获取对应的若干用户的...

【专利技术属性】
技术研发人员:郝竹林罗超胡泓王俊彬任君
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1