一种基于语音识别的VR交互系统和方法技术方案

技术编号:23534134 阅读:33 留言:0更新日期:2020-03-20 08:12
本发明专利技术涉及语音识别系统的相关领域,公开了一种基于语音识别的VR交互系统,包括云端和VR外设端,云端包括语音识别模块、语义识别模块、场景处理模块、存储模块和通信模块,VR外设端包括显示器模块、语音输入模块和语音输入模块,VR外设端也包括通信模块,本发明专利技术还公开了一种基于语音识别的VR交互系统的方法,包括如下方法步骤:构建知识库对话库;开启云端和VR外设端;用户佩戴VR外设;用户输入;云端处理。本发明专利技术有效改善目前现有VR产品交互性差,抽离感强的不足,实现人和虚拟场景人物更自然的交互体验。

A VR interactive system and method based on speech recognition

【技术实现步骤摘要】
一种基于语音识别的VR交互系统和方法
本专利技术涉及语音识别系统的相关领域,具体为一种基于语音识别的VR交互系统和方法。
技术介绍
VR,简称虚拟现实技术,虚拟现实技术是仿真技术的一个重要方向是仿真技术与计算机图形学人机接口技术多媒体技术传感技术网络技术等多种技术的集合是一门富有挑战性的交叉技术前沿学科和研究领域。虚拟现实技术(VR)主要包括模拟环境、感知、自然技能和传感设备等方面。模拟环境是由计算机生成的、实时动态的三维立体逼真图像。感知是指理想的VR应该具有一切人所具有的感知。除计算机图形技术所生成的视觉感知外,还有听觉、触觉、力觉、运动等感知,甚至还包括嗅觉和味觉等,也称为多感知。自然技能是指人的头部转动,眼睛、手势、或其他人体行为动作,由计算机来处理与参与者的动作相适应的数据,并对用户的输入作出实时响应,并分别反馈到用户的五官。传感设备是指三维交互设备。虚拟现实是由美国vpl公司创建人拉尼尔在20世纪80年代初提出的。其具体内涵是:综合利用计算机图形系统和各种现实及控制等接口设备,在计算机上生成的、可交互的三维环境中提供沉浸感觉的技术。其中,计算机生成的、可交互的三维环境成为虚拟环境,虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统它利用计算机生成一种模拟多源信息融合的交互式的三维动态视景和实体行为的系统仿真使用户沉浸到该环境中。VR技术在医疗,教育,房地产,设计方面都有广阔的前景。目前VR的交互技术主要还是靠动作捕捉,手势识别,用户的体验性并不好,所以在此情况下,语音交互就成为一个用户很强的诉求。语音识别技术现在主要的分为两个方向,即传统声学模型和深度学习模型。传统的语音识别技术即声学模型,通过提取说话者的音频特征,在一些算法的模拟下,生成一个模型。深度学习模型,是近几年来迅速崛起的技术,目前比较火的是基于深度神经网络的隐马尔可夫模型,该技术基于数据的计算模拟出一个鉴别性模型。随着算法不断进步和硬件的不断升级,深度学习模型的优势也越来越明显,我们采用的也是基于深度学习的语音识别模型,目前基于语音识别模型的现有的VR产品交互性差,抽离感强的不足,不能实现人和虚拟场景人物更自然的交互体验,有待改善。
技术实现思路
本专利技术的目的在于提供一种基于语音识别的VR交互系统和方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于语音识别的VR交互系统,包括云端和VR外设端,所述云端包括语音识别模块、语义识别模块、场景处理模块、存储模块和通信模块,所述VR外设端包括显示器模块、语音输入模块和语音输入模块,所述VR外设端也包括通信模块;所述语音识别模块主要对用户的语音先进行初步的处理,即在语音输入模块的基础上,通过降噪去混响方式提取语音特征,然后通过基于深度学习的算法进行语音模型的生成和检验,这一部分用到很多算法和处理工具,语音识别模块和语义识别模块相连;所述语义识别模块在语音识别模块的基础上再次进行语义处理,并且推断出用户意图,这一部分需要根据结合上下文进行分析,来提高准确性,语义识别模块和场景处理模块相连;所述场景处理模块分析语义识别模块的识别的结果,根据结果,调整场景的布局变换,并且通过显示器模块输出结果,这需要该模块调用存储模块中的知识库进行相关的处理,场景处理模块和存储模块以及显示器模块相连;所述存储模块用于存储知识库和对话库,场景处理模块根据前一步的结果,将调用存储在存存储模块的所需的对话库知识库输出,对话库通过语音输出模块输出,知识库通过显示器模块进行输出;所述语音输入模块包括一些音频输入设备,语音输入模块和语音输出模块相连;所述语音输出模块将存储模块中的结果进行语音输出;所述通信模块负责外设间的通信。优选的,所述语音输入模块的音频输入设备包括麦克风。优选的,所述语音输入模块的设备包括耳机功放。一种基于语音识别的VR交互系统的方法,包括如下方法步骤:构建知识库对话库:首先把相应的对话库存储于存储模块;开启云端和VR外设端:开启云端和VR外设端后并保证通信模块正常;用户佩戴vR外设:用户佩戴佩戴vR外设后能够感受到虚拟场景;用户输入:用户根据虚拟场景提示或者主动通过音频输入外设,输入语音;云端处理:通过在云端的处理,用户就会在vR终端,通过耳机接收到应答信息,同时从显示器模块的显示设备获取虚拟场景的应答动作和表情。优选的,包括基于方法步骤的具体应用,使用时,用户通过麦克风等输入设备输入音频,传输到云端,先利用语音识别模块进行语音识别,初步获取用户信息,然后利用语义识别模块进行语义识别,云端理解用户指令,并推断出用户的意图,然后,根据用户的意图,在场景处理模块中处理,将结果传输给显示器模块;同时调用存储模块中的知识库,将相应的结果返回给VR外设端,通过VR外设端的输出设备,用户就可以听到对话信息,这样用户一边通过显示器模块观看,一边通过语音输入模块以及语音输出模块对应的音频设备收听,获得视觉和听觉的双重反馈,更有沉浸感。与现有技术相比,本专利技术的有益效果是:本专利技术中用户对于虚拟场景中的人物进行交流,可以通过VR外设端上的语音输入模块进行,如mic,也可通过音频转接线或者其他方式传输到云端,云端首先会对传进来的语音信息进行初步处理,这一部分在语音识别模块进行,语音识别模块首先是降噪,去除混响,等去除周围环境中干扰的因素,然后提取语音特征,通过基于深度神经网络的深度学习算法进行分析建模,生成语音模型,然后对用户输入的语音信息进行比对和识别,分析用户语音信息内容和指令信息,在此语音识别基础上,进入到语义识别模块,云端会根据语音识别的基础上,进行NLP分词,关键词分析等,结合上下文环境进而推断出用户可能的意图,进入场景处理模块后,根据语义识别模块中的结果进行场景处理,该模块会调用存储模块中的知识库,进行相应的场景应答,包括图形调节,上下文处理等,反馈到输出上就是虚拟人物的动作变换,这些处理结果将会通过数据线或者其他方式传输给VR外设端上的显示器模块,同时输出相应的语音信息,这里的存储模块包括知识图库,对话库等,云端在场景处理的基础上,将会从存储模块的对话库中,返回应答会话,同时云端将会在场景处理模块进行相关场景处理,根据用户的指令,如做出应答的表情或者动作,从而能够达到视觉听觉的双重感知,使得用户沉浸感大大增强。本专利技术有效改善目前现有VR产品交互性差,抽离感强的不足,实现人和虚拟场景人物更自然的交互体验。附图说明图1为本专利技术的模块结构示意图。图中:1、云端;2、VR外设端;3、语音识别模块;4、语义识别模块;5、场景处理模块;6、存储模块;7、显示器模块;8、语音输入模块;9、语音输出模块。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术本文档来自技高网
...

【技术保护点】
1.一种基于语音识别的VR交互系统,其特征在于:包括云端(1)和VR外设端(2),所述云端(1)包括语音识别模块(3)、语义识别模块(4)、场景处理模块(5)、存储模块(6)和通信模块,所述VR外设端(2)包括显示器模块(7)、语音输入模块(8)和语音输入模块(8),所述VR外设端(2)也包括通信模块;/n所述语音识别模块(3)主要对用户的语音先进行初步的处理,即在语音输入模块(8)的基础上,通过降噪去混响方式提取语音特征,然后通过基于深度学习的算法进行语音模型的生成和检验,这一部分用到很多算法和处理工具,语音识别模块(3)和语义识别模块(4)相连;/n所述语义识别模块(4)在语音识别模块(3)的基础上再次进行语义处理,并且推断出用户意图,这一部分需要根据结合上下文进行分析,来提高准确性,语义识别模块(4)和场景处理模块(5)相连;/n所述场景处理模块(5)分析语义识别模块(4)的识别的结果,根据结果,调整场景的布局变换,并且通过显示器模块(7)输出结果,这需要该模块调用存储模块(6)中的知识库进行相关的处理,场景处理模块(5)和存储模块(6)以及显示器模块(7)相连;/n所述存储模块(6)用于存储知识库和对话库,场景处理模块(5)根据前一步的结果,将调用存储在存存储模块(6)的所需的对话库知识库输出,对话库通过语音输出模块(9)输出,知识库通过显示器模块(7)进行输出;/n所述语音输入模块(8)包括一些音频输入设备,语音输入模块(8)和语音输出模块(9)相连;/n所述语音输出模块(9)将存储模块(6)中的结果进行语音输出;/n所述通信模块负责外设间的通信。/n...

【技术特征摘要】
1.一种基于语音识别的VR交互系统,其特征在于:包括云端(1)和VR外设端(2),所述云端(1)包括语音识别模块(3)、语义识别模块(4)、场景处理模块(5)、存储模块(6)和通信模块,所述VR外设端(2)包括显示器模块(7)、语音输入模块(8)和语音输入模块(8),所述VR外设端(2)也包括通信模块;
所述语音识别模块(3)主要对用户的语音先进行初步的处理,即在语音输入模块(8)的基础上,通过降噪去混响方式提取语音特征,然后通过基于深度学习的算法进行语音模型的生成和检验,这一部分用到很多算法和处理工具,语音识别模块(3)和语义识别模块(4)相连;
所述语义识别模块(4)在语音识别模块(3)的基础上再次进行语义处理,并且推断出用户意图,这一部分需要根据结合上下文进行分析,来提高准确性,语义识别模块(4)和场景处理模块(5)相连;
所述场景处理模块(5)分析语义识别模块(4)的识别的结果,根据结果,调整场景的布局变换,并且通过显示器模块(7)输出结果,这需要该模块调用存储模块(6)中的知识库进行相关的处理,场景处理模块(5)和存储模块(6)以及显示器模块(7)相连;
所述存储模块(6)用于存储知识库和对话库,场景处理模块(5)根据前一步的结果,将调用存储在存存储模块(6)的所需的对话库知识库输出,对话库通过语音输出模块(9)输出,知识库通过显示器模块(7)进行输出;
所述语音输入模块(8)包括一些音频输入设备,语音输入模块(8)和语音输出模块(9)相连;
所述语音输出模块(9)将存储模块(6)中的结果进行语音输出;
所述通信模块负责外设间的通信。


2.根据权利要求1所述的一种基于语音识...

【专利技术属性】
技术研发人员:刘雨松
申请(专利权)人:苏州意能通信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1