一种基于口型辅助语音识别的数字人交互判别方法及系统技术方案

技术编号:42466427 阅读:22 留言:0更新日期:2024-08-21 12:52
本发明专利技术属于人机交互判别技术领域,具体涉及一种基于口型辅助语音识别的数字人交互判别方法及系统,包括:获取用户的实时语音和口型视频流;识别所获取的语音,得到语音识别置信度和语音识别结果;根据所获取的口型视频流进行用户的口型识别,得到口型识别结果;根据所得到的语音识别置信度、语音识别结果和口型识别结果,识别用户的语音语义;根据所得到的语音语义,判断用户所需办理的业务内容;根据需办理的业务内容,向用户推荐分配业务办理窗口,实现语音识别与业务办理窗口之间的交互联动。

【技术实现步骤摘要】

本专利技术属于人机交互判别,具体涉及一种基于口型辅助语音识别的数字人交互判别方法及系统


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、随着人工智能技术的不断发展,语音识别技术得到广泛的应用。目前,常见的语音识别技术包括基于声音特征的语音识别和基于图像特征的语音识别;其中,基于图像特征的语音识别技术可更好地模拟人类的语音发音过程,进一步提高语音识别的准确性和稳定性。

3、据专利技术人了解,在各类营业厅、车站、机场、等杂乱的环境中,若采用单纯语音识别的数字人一体机进行语音识别,则识别结果的准确率因受嘈杂环境影响而降低,大大降低用户与数字人交互的体验流畅感,最终影响识别精确率,实用性较差;基于图像特征的语音识别技术需要对人类口腔结构进行精确的建模,需大量的训练数据和复杂的算法支持。口型识别是通过分析人的唇部动作口型来判断语音的内容,可辅助提升语音识别的精确率;如何将通过口型辅助语音识别以提高识别精度是亟需解决的难题。


技术实现思路</p>

1、为了本文档来自技高网...

【技术保护点】

1.一种基于口型辅助语音识别的数字人交互判别方法,其特征在于,包括:

2.如权利要求1中所述的一种基于口型辅助语音识别的数字人交互判别方法,其特征在于,在识别用户语音语义的过程中,判断所得到的语音识别置信度与预设的语音识别置信度阈值之间的关系,当所得到的语音识别置信度超过预设的语音识别置信度阈值时,用户的语音语义即为语音识别结果;当所得到的语音识别置信度不超过预设的语音识别置信度阈值时,则需计算口型识别置信度,通过判断所得到的口型识别置信度与预设的口型识别置信度之间的关系,进行用户的语音语义识别。

3.如权利要求1中所述的一种基于口型辅助语音识别的数字人交互判别方...

【技术特征摘要】

1.一种基于口型辅助语音识别的数字人交互判别方法,其特征在于,包括:

2.如权利要求1中所述的一种基于口型辅助语音识别的数字人交互判别方法,其特征在于,在识别用户语音语义的过程中,判断所得到的语音识别置信度与预设的语音识别置信度阈值之间的关系,当所得到的语音识别置信度超过预设的语音识别置信度阈值时,用户的语音语义即为语音识别结果;当所得到的语音识别置信度不超过预设的语音识别置信度阈值时,则需计算口型识别置信度,通过判断所得到的口型识别置信度与预设的口型识别置信度之间的关系,进行用户的语音语义识别。

3.如权利要求1中所述的一种基于口型辅助语音识别的数字人交互判别方法,其特征在于,提取所得到的语音语义的关键词,根据所提取到的关键词判断用户所需办理的业务内容;数字人向用户确认所判断出来的用户所需办理业务内容,所需办理的业务内容得到确认之后,基于数字人与业务办理窗口之间的联动向用户推荐业务办理窗口,实现语音识别与业务办理窗口之间的交互联动。

4.如权利要求1中所述的一种基于口型辅助语音识别的数字人交互判别方法,其特征在于,在用户口型识别的过程中,采用yolov5算法和进行口型视频流的图像分割,提取预处理后的分割图像的三维图像特征;根据所得到的三维图像特征和卷积神经网络进行口型...

【专利技术属性】
技术研发人员:吴振东吴旭春张功臣王彦毕文学吴有文赵克强季研
申请(专利权)人:齐鲁银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1