基于三级特征采集的智能语音识别方法技术

技术编号:26480623 阅读:28 留言:0更新日期:2020-11-25 19:26
本申请揭示了一种基于三级特征采集的智能语音识别方法、装置、计算机设备和存储介质,所述方法包括:进行声音采集处理,得到第一声音信号;对所述说话人的嘴唇进行图像采集处理,得到第二图像信号;向口腔内传感器集群发送信号获取要求;获取口腔内传感器集群发送的第三传感信号集;将第一声音信号、第二传感信号子集和第三传感信号子集共同输入第一语义识别模型中,得到第一识别文本;将第二图像信号、第一传感信号子集和第二传感信号子集共同输入第二语义识别模型中,得到第二识别文本;计算第一识别文本和第二识别文本之间的文本相似度值;若文本相似度值大于文本相似阈值,则将第一识别文本作为智能语音识别结果。

【技术实现步骤摘要】
基于三级特征采集的智能语音识别方法
本申请涉及到计算机领域,特别是涉及到一种基于三级特征采集的智能语音识别方法、装置、计算机设备和存储介质。
技术介绍
语音识别技术用于识别采集到的语音,其已大量应用于各领域中,例如智能机器人领域中,由于语音识别技术的应用,使得自然人与智能机器人之间的语音交流成为了可能。但是,传统的语音识别方案,其识别准确性仍存在不足,例如无法准确辨别差别较小的语音(例如,对于卷舌音和平舌音,当说话人较为发音较轻且较含糊时,传统的语音识别方案难以准确识别)。因此,传统的语音识别方案的识别准确性有待提高。
技术实现思路
本申请提出一种基于三级特征采集的智能语音识别方法,包括以下步骤:S1、采用预设的声音采集设备对说话人进行声音采集处理,从而得到第一时间窗口内的第一声音信号;S2、采用预设的图像采集设备对所述说话人的嘴唇进行图像采集处理,从而得到所述第一时间窗口内的第二图像信号;S3、向预设的口腔内传感器集群发送信号获取要求;其中,所述口腔内传感器集群预设于口腔内参照物上,所述口腔内参照物位于所述说话人的口腔内;S4、获取所述口腔内传感器集群发送的第三传感信号集;其中,所述第三传感信号集由第一传感信号子集、第二传感信号子集和第三传感信号子集构成;所述第二传感信号子集的时间窗口等于所述第一时间窗口,所述第一传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度,所述第一传感信号子集的时间窗口的末端等于所述第一时间窗口的开端;所述第三传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度,所述第三传感信号子集的时间窗口的开端等于所述第一时间窗口的末端;S5、将所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集共同输入预设的第一语义识别模型中进行处理,从而得到所述第一语义识别模型输出的第一识别文本;其中,所述第一语义识别模型基于预设的神经网络模型并采用第一训练集训练而成,所述第一训练集中的每个数据均由第一训练用语音、第二训练用传感信号子集、第三训练用传感信号子集和对应的人工标注的语义文本构成;S6、将所述第二图像信号、所述第一传感信号子集和所述第二传感信号子集共同输入预设的第二语义识别模型中进行处理,从而得到所述第二语义识别模型输出的第二识别文本;其中,所述第二语义识别模型基于预设的神经网络模型并采用第二训练集训练而成,所述第二训练集中的每个数据均由第二训练用图像信号、第一训练用传感信号子集、所述第二训练用传感信号子集和对应的人工标注的语义文本构成;其中,所述第一训练用传感信号子集、所述第二训练用传感信号子集和所述第三训练用传感信号子集在时间上依次连续;S7、根据预设的相似度计算方法,计算所述第一识别文本和所述第二识别文本之间的文本相似度值,并判断所述文本相似度值是否大于预设的文本相似阈值;S8、若所述文本相似度值大于预设的文本相似阈值,则将所述第一识别文本作为智能语音识别结果。进一步地,所述口腔内参照物的外形为圆球状,所述口腔内传感器集群为压力传感器集群,所述口腔内传感器集群用于在所述说话人说话时感测所述口腔内参照物的表面受到的压力信号。进一步地,所述说明人的口腔内还含有与所述口腔内参照物对应的口腔内信号发射物,所述口腔内信号发射物上预设的第一光信号发射器集群和第二光信号发射器集群,所述第一光信号发射器集群发射的光信号为可见光,所述第二光信号发射器集群发射的光信号为不可见光;所述口腔内传感器集群由第一光信号传感器集群和第二光信号传感器集群构成,所述第一光信号传感器集群用于感测所述第一光信号发射器集群发射的光信号,所述第二光信号传感器集群用于感测所述第二光信号发射器集群发射的光信号;所述向预设的口腔内传感器集群发送信号获取要求;其中,所述口腔内传感器集群预设于口腔内参照物上,所述口腔内参照物位于所述说话人的口腔内的步骤S3,包括:S301、向所述口腔内信号发射物上的第一光信号发射器集群发送第一光信号发射要求,以使所述口腔内信号发射物上的第一光信号发射器集群发送光信号,从而所述说话人的口腔被可见光照亮;S302、向所述口腔内信号发射物上的第二光信号发射器集群发送补充光信号发射要求,以使所述口腔内信号发射物上的第二光信号发射器集群发送不可见光;其中所述第二光信号发射器集群的总功率低于所述第一光信号发射器集群的总功率;S303、向所述口腔内传感器集群中的第一光信号传感器集群发送第一光信号获取要求,以使所述第一光信号传感器集群进行信号采集,从而得到可见光信号集;S304、向所述口腔内传感器集群中的第二光信号传感器集群发送第二光信号获取要求,以使所述第二光信号传感器集群进行信号采集,从而得到不可见光信号集;S305、将所述可见光信号集和所述不可见光信号集汇总为所述口腔内传感器集群感测到的信号集。进一步地,所述将所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集共同输入预设的第一语义识别模型中进行处理,从而得到所述第一语义识别模型输出的第一识别文本;其中,所述第一语义识别模型基于预设的神经网络模型并采用第一训练集训练而成,所述第一训练集中的每个数据均由第一训练用语音、第二训练用传感信号子集、第三训练用传感信号子集和对应的人工标注的语义文本构成的步骤S5之前,包括:S41、调取预先收集的指定数量的样本数据,其中每个样本数据均由预先收集的训练用语音和与所述训练用语音对应的训练用语义文本构成,并且所述训练用语音是对口含有口腔内参照物的自然人在说话时进行语音采集而得到的;S42、将所述样本数据根据预设比例划分为训练数据和验证数据;S43、利用所述训练数据输入预设的基于长短期记忆人工神经网络的识别模型中进行处理,从而得到训练后的暂时模型;S44、利用所述验证数据对所述暂时模型进行验证处理,以得到验证结果,并判断验证结果是否为验证通过;S45、若验证结果是否为验证通过,则将所述暂时模型记为第一语义识别模型。进一步地,所述根据预设的相似度计算方法,计算所述第一识别文本和所述第二识别文本之间的文本相似度值,并判断所述文本相似度值是否大于预设的文本相似阈值的步骤S7之后,包括:S71、若所述文本相似度值不大于预设的文本相似阈值,则将所述第一声音信号、所述第二图像信号和所述第二传感信号子集输入预设的第三语义识别模型中进行处理,从而得到第三识别文本;其中所述第三语义识别模型的训练数据由训练用声音信号、训练用图像信号、训练用传感信号集和对应的人工标注的文本构成,并且所述训练用声音信号、训练用图像信号和训练用传感信号集具有的时间窗口相同;S72、根据预设的相似度计算方法,计算所述第一识别文本和所述第三识别文本之间的文本相似度值,并判断所述第一识别文本和所述第三识别文本之间的文本相似度值是否大于预设的文本相似阈值;S73、若所述第一识别文本和所述第三识别文本之间的文本相似度值大于预设的文本相似阈值,则将所述第三识别文本作为智能语音识别结果。<本文档来自技高网...

【技术保护点】
1.一种基于三级特征采集的智能语音识别方法,其特征在于,包括:/nS1、采用预设的声音采集设备对说话人进行声音采集处理,从而得到第一时间窗口内的第一声音信号;/nS2、采用预设的图像采集设备对所述说话人的嘴唇进行图像采集处理,从而得到所述第一时间窗口内的第二图像信号;/nS3、向预设的口腔内传感器集群发送信号获取要求;其中,所述口腔内传感器集群预设于口腔内参照物上,所述口腔内参照物位于所述说话人的口腔内;/nS4、获取所述口腔内传感器集群发送的第三传感信号集;其中,所述第三传感信号集由第一传感信号子集、第二传感信号子集和第三传感信号子集构成;所述第二传感信号子集的时间窗口等于所述第一时间窗口,所述第一传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度,所述第一传感信号子集的时间窗口的末端等于所述第一时间窗口的开端;所述第三传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度,所述第三传感信号子集的时间窗口的开端等于所述第一时间窗口的末端;/nS5、将所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集共同输入预设的第一语义识别模型中进行处理,从而得到所述第一语义识别模型输出的第一识别文本;其中,所述第一语义识别模型基于预设的神经网络模型并采用第一训练集训练而成,所述第一训练集中的每个数据均由第一训练用语音、第二训练用传感信号子集、第三训练用传感信号子集和对应的人工标注的语义文本构成;/nS6、将所述第二图像信号、所述第一传感信号子集和所述第二传感信号子集共同输入预设的第二语义识别模型中进行处理,从而得到所述第二语义识别模型输出的第二识别文本;其中,所述第二语义识别模型基于预设的神经网络模型并采用第二训练集训练而成,所述第二训练集中的每个数据均由第二训练用图像信号、第一训练用传感信号子集、所述第二训练用传感信号子集和对应的人工标注的语义文本构成;其中,所述第一训练用传感信号子集、所述第二训练用传感信号子集和所述第三训练用传感信号子集在时间上依次连续;/nS7、根据预设的相似度计算方法,计算所述第一识别文本和所述第二识别文本之间的文本相似度值,并判断所述文本相似度值是否大于预设的文本相似阈值;/nS8、若所述文本相似度值大于预设的文本相似阈值,则将所述第一识别文本作为智能语音识别结果。/n...

【技术特征摘要】
1.一种基于三级特征采集的智能语音识别方法,其特征在于,包括:
S1、采用预设的声音采集设备对说话人进行声音采集处理,从而得到第一时间窗口内的第一声音信号;
S2、采用预设的图像采集设备对所述说话人的嘴唇进行图像采集处理,从而得到所述第一时间窗口内的第二图像信号;
S3、向预设的口腔内传感器集群发送信号获取要求;其中,所述口腔内传感器集群预设于口腔内参照物上,所述口腔内参照物位于所述说话人的口腔内;
S4、获取所述口腔内传感器集群发送的第三传感信号集;其中,所述第三传感信号集由第一传感信号子集、第二传感信号子集和第三传感信号子集构成;所述第二传感信号子集的时间窗口等于所述第一时间窗口,所述第一传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度,所述第一传感信号子集的时间窗口的末端等于所述第一时间窗口的开端;所述第三传感信号子集的时间窗口长度小于所述第一时间窗口的窗口长度,所述第三传感信号子集的时间窗口的开端等于所述第一时间窗口的末端;
S5、将所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集共同输入预设的第一语义识别模型中进行处理,从而得到所述第一语义识别模型输出的第一识别文本;其中,所述第一语义识别模型基于预设的神经网络模型并采用第一训练集训练而成,所述第一训练集中的每个数据均由第一训练用语音、第二训练用传感信号子集、第三训练用传感信号子集和对应的人工标注的语义文本构成;
S6、将所述第二图像信号、所述第一传感信号子集和所述第二传感信号子集共同输入预设的第二语义识别模型中进行处理,从而得到所述第二语义识别模型输出的第二识别文本;其中,所述第二语义识别模型基于预设的神经网络模型并采用第二训练集训练而成,所述第二训练集中的每个数据均由第二训练用图像信号、第一训练用传感信号子集、所述第二训练用传感信号子集和对应的人工标注的语义文本构成;其中,所述第一训练用传感信号子集、所述第二训练用传感信号子集和所述第三训练用传感信号子集在时间上依次连续;
S7、根据预设的相似度计算方法,计算所述第一识别文本和所述第二识别文本之间的文本相似度值,并判断所述文本相似度值是否大于预设的文本相似阈值;
S8、若所述文本相似度值大于预设的文本相似阈值,则将所述第一识别文本作为智能语音识别结果。


2.根据权利要求1所述的基于三级特征采集的智能语音识别方法,其特征在于,所述口腔内参照物的外形为圆球状,所述口腔内传感器集群为压力传感器集群,所述口腔内传感器集群用于在所述说话人说话时感测所述口腔内参照物的表面受到的压力信号。


3.根据权利要求1所述的基于三级特征采集的智能语音识别方法,其特征在于,所述说明人的口腔内还含有与所述口腔内参照物对应的口腔内信号发射物,所述口腔内信号发射物上预设的第一光信号发射器集群和第二光信号发射器集群,所述第一光信号发射器集群发射的光信号为可见光,所述第二光信号发射器集群发射的光信号为不可见光;所述口腔内传感器集群由第一光信号传感器集群和第二光信号传感器集群构成,所述第一光信号传感器集群用于感测所述第一光信号发射器集群发射的光信号,所述第二光信号传感器集群用于感测所述第二光信号发射器集群发射的光信号;所述向预设的口腔内传感器集群发送信号获取要求;其中,所述口腔内传感器集群预设于口腔内参照物上,所述口腔内参照物位于所述说话人的口腔内的步骤S3,包括:
S301、向所述口腔内信号发射物上的第一光信号发射器集群发送第一光信号发射要求,以使所述口腔内信号发射物上的第一光信号发射器集群发送光信号,从而所述说话人的口腔被可见光照亮;
S302、向所述口腔内信号发射物上的第二光信号发射器集群发送补充光信号发射要求,以使所述口腔内信号发射物上的第二光信号发射器集群发送不可见光;其中所述第二光信号发射器集群的总功率低于所述第一光信号发射器集群的总功率;
S303、向所述口腔内传感器集群中的第一光信号传感器集群发送第一光信号获取要求,以使所述第一光信号传感器集群进行信号采集,从而得到可见光信号集;
S304、向所述口腔内传感器集群中的第二光信号传感器集群发送第二光信号获取要求,以使所述第二光信号传感器集群进行信号采集,从而得到不可见光信号集;
S305、将所述可见光信号集和所述不可见光信号集汇总为所述口腔内传感器集群感测到的信号集。


4.根据权利要求1所述的基于三级特征采集的智能语音识别方法,其特征在于,所述将所述第一声音信号、所述第二传感信号子集和所述第三传感信号子集共同输入预设的第一语义识别模型中进行处理,从而得到所述第一语义识别模型输出的第一识别文本;其中,所述第一语义识别模型基于预设的神经网络模型并采用第一训练集训练而成,所述第一训练集中的每个数据均由第一训练用语音、第二训练...

【专利技术属性】
技术研发人员:罗绍远
申请(专利权)人:广州仿真机器人有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1