基于全息成像和语音识别的交互三维立体影像系统及方法技术方案

技术编号:15442346 阅读:173 留言:0更新日期:2017-05-26 07:14
本发明专利技术公开了基于全息成像和语音识别的交互三维立体影像系统及方法,包括计算机控制系统,所述计算机控制系统分别与影视播放与音响系统及光学成像系统相连,所述影像播放与音响系统用于画面与声音的输出,所述光学成像系统用于实现三维立体画面的展示,所述计算机控制系统包括语音识别模块,所述语音识别模块包括数据库,通过对输入的用户语音信息与数据库进行匹配,实现对用户的人群定向识别。本发明专利技术使得360°全息成像系统可进行人机交互,使用更加灵活,实用性大大增强。

Interactive 3D stereo image system and method based on holographic imaging and speech recognition

The present invention discloses interactive three-dimensional holographic imaging and imaging system and method based on speech recognition, including computer control system, the computer control system and video playback is connected with the audio system and optical imaging system, the image and sound playing output system for picture and sound, the optical imaging system is used to realize a three-dimensional picture of the display, the computer control system comprises a voice recognition module, the speech recognition module includes a database, matching the input by the user voice information and database, realize the recognition of user oriented crowd. The invention enables the 360 DEG holographic imaging system to carry out human-computer interaction, and the use is more flexible, and the practicability is greatly enhanced.

【技术实现步骤摘要】
基于全息成像和语音识别的交互三维立体影像系统及方法
本专利技术涉及立体影像
,特别是涉及基于全息成像和语音识别的交互三维立体影像系统及方法。
技术介绍
360°全息成像技术(360-degreeholographicimaging)是一种新兴的3D技术,也可简单称为全息或360全息。此技术根据光的反射原理,配合人眼的视觉误差,进行集成制作出多角度、全方位的360°立体悬浮影像。可将成像独立展示,也可与实物相结合。目前,以360°全息成像技术(360-degreeholographicimaging)为基础的360°全息成像系统主要由光学成像系统、计算机控制系统、影视播放系统和音响系统组成。就国内发展状况看,360°全息成像系统应用场景只是进行科技展览(科技馆的展示),并未得到大量的实际应用。可进行人机交互的360°全息成像系统也不存在。语音识别技术,也被称为自动语音识别AutomaticSpeechRecognition,(ASR),其目标是将人类语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果。当前的语音识别在模型库进行匹配时,现有的搜索算法为利用语音学与语言学信息,把输入的语音特征向量序列X=X1,X2,……,XT转化成词序列W=W1,W2,…,WN并输出。现有的360°全息成像系统和语音识别技术存在以下缺点:1、360°全息成像系统无法实现人机交互。2、360°全息成像系统需要用户自主处理适合360°全息成像系统的视频源。3.360°全息成像系统的语音识别精度不佳。综上所述,现有技术中对于360°全息成像系统所存在的人机交互及使用不便等的问题,尚缺乏有效的解决方案。
技术实现思路
为了解决现有技术的不足,本专利技术提供了基于全息成像和语音识别的交互三维立体影像系统,将语音识别应用于360°全息成像系统以达到人机交互的目的。开发相关配套软件,对语音识别与360°全息成像系统进行实时控制,并能自动处理适合360°全息成像系统的视频源。采用“定向使用人群”的语音识别技术来提高语音识别的精准度。基于全息成像和语音识别的交互三维立体影像系统,包括计算机控制系统,所述计算机控制系统分别与影视播放与音响系统及光学成像系统相连,所述影像播放与音响系统用于画面与声音的输出,所述光学成像系统用于实现三维立体画面的展示,所述计算机控制系统包括语音识别模块,所述语音识别模块包括数据库,通过对输入的用户语音信息与数据库进行匹配,实现对用户的人群定向识别。进一步的,所述数据库包括第一数据库及第二数据库,所述第一数据库为人群定向数据库,该数据库包括高频专业词汇,以便对使用者进行人群定向,所述第二数据库包括定向人群的专业用语和常用语。进一步的,所述语音识别模块在实现语音识别时具体为:自动收集用户语音信息,将收集的用户语音信息与人群定向数据库进行匹配,对用户进行人群定向,该定向结果为人群的行业,通过对人群定向的正确性进行检测直至符合要求为止。进一步的,计算机控制系统对人群定向的正确性进行检测的方法为:计算机控制系统在对人群定向后,(用户在使用本产品时)计算机控制系统依然自动收集用户语音信息,并依据当前人群定向结果(该定向结果为人群的行业)继续与第一数据库进行反向匹配(即根据人群定向结果匹配专业高频词汇)得到反向匹配结果(该结果为专业高频词汇),如果用户语音信息与反向匹配结果误差小于等于设定值(例如10%),计算机控制系统则认为人群定向正确。进一步的,计算机控制系统根据人群定向的结果,进一步从第二数据库即定向人群专业用语和常用语数据库进行搜索得到最终结果,该结果为符合定向人群的专业用语和常用语。进一步的,所述计算机控制系统中还包括视频源处理模块,视频源处理模块通过以下方式实现对视频源的处理:在容器中添加四个JMF播放器、一个播放器的视频组件和控制组件,采用十字分割的方式对四个JMF播放器进行分割,四个JMF播放器分别播放用户导入的正面、后面、左面、右面视频,其中正面和后面、左面和右面互为对称。播放器的视频组件用于支持JMF播放器对视频的播放,播放器的控制组件实现对视频播放行为的控制。进一步的,本专利技术还公开了基于360°全息成像和语音识别的交互式三维立体影像系统的实现方法,包括:计算机控制系统实现对语音识别,通过对输入的用户语音信息与数据库进行匹配,实现对用户的人群定向识别;影像播放与音响系统用于对计算机控制系统的画面与声音的输出;光学成像系统用于实现对计算机控制系统的三维立体画面的展示。进一步的,计算机控制系统实现对语音识别时,首先建立数据库,所述数据库包括第一数据库及第二数据库,所述第一数据库为人群定向数据库,该数据库包括高频专业词汇,以便对使用者进行人群定向,所述第二数据库包括定向人群的专业用语和常用语。进一步的,计算机控制系统实现对语音识别时具体为:自动收集用户语音信息,将收集的用户语音信息与人群定向数据库进行匹配,对用户进行人群定向,该定向结果为人群的行业,通过对人群定向的正确性进行检测直至符合要求为止。进一步的,计算机控制系统对人群定向的正确性进行检测的方法为:计算机控制系统在对人群定向后,(用户在使用本产品时)计算机控制系统依然自动收集用户语音信息,并依据当前人群定向结果(该定向结果为人群的行业)继续与第一数据库进行反向匹配(即根据人群定向结果匹配专业高频词汇)得到反向匹配结果(该结果为专业高频词汇),如果用户语音信息与反向匹配结果误差小于等于设定值(例如10%),计算机控制系统则认为人群定向正确。进一步的,计算机控制系统根据人群定向的结果,进一步从第二数据库即定向人群专业用语和常用语数据库进行搜索得到最终结果,该结果为符合定向人群的专业用语和常用语。进一步的,计算机控制系统实现对视频源处理,视频源处理通过以下方式实现对视频源的处理:在容器中添加四个JMF播放器、一个播放器的视频组件和控制组件,采用十字分割的方式对四个JMF播放器进行分割,四个JMF播放器分别播放用户导入的正面、后面、左面、右面视频,其中正面和后面、左面和右面互为对称。与现有技术相比,本专利技术的有益效果是:1、使得360°全息成像系统可进行人机交互,使用更加灵活,实用性大大增强。2、优化语音识别速度,提高了用户体验。3、为产品提供的配套软件,使得非专业人士不经培训便可应用,使用难度降低,普及也相对容易。4、交互式3维立体影像系统不再是专业设备,娱乐家居亦可使用。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1交互式3维立体影像系统构成图;图2改进后的语音识别过程图;图3配套软件中视频源处理功能的原理图;本文档来自技高网
...
基于全息成像和语音识别的交互三维立体影像系统及方法

【技术保护点】
基于全息成像和语音识别的交互三维立体影像系统,其特征是,包括计算机控制系统,所述计算机控制系统分别与影视播放与音响系统及光学成像系统相连,所述影像播放与音响系统用于画面与声音的输出,所述光学成像系统用于实现三维立体画面的展示,所述计算机控制系统包括语音识别模块,所述语音识别模块包括数据库,通过对输入的用户语音信息与数据库进行匹配,实现对用户的人群定向识别。

【技术特征摘要】
1.基于全息成像和语音识别的交互三维立体影像系统,其特征是,包括计算机控制系统,所述计算机控制系统分别与影视播放与音响系统及光学成像系统相连,所述影像播放与音响系统用于画面与声音的输出,所述光学成像系统用于实现三维立体画面的展示,所述计算机控制系统包括语音识别模块,所述语音识别模块包括数据库,通过对输入的用户语音信息与数据库进行匹配,实现对用户的人群定向识别。2.如权利要求1所述的基于全息成像和语音识别的交互三维立体影像系统,其特征是,所述数据库包括第一数据库及第二数据库,所述第一数据库为人群定向数据库,该数据库包括高频专业词汇,以便对使用者进行人群定向,所述第二数据库包括定向人群的专业用语和常用语。3.如权利要求1所述的基于全息成像和语音识别的交互三维立体影像系统,其特征是,所述语音识别模块在实现语音识别时具体为:自动收集用户语音信息,将收集的用户语音信息与人群定向数据库进行匹配,对用户进行人群定向,该定向结果为人群的行业,通过对人群定向的正确性进行检测直至符合要求为止。4.如权利要求3所述的基于全息成像和语音识别的交互三维立体影像系统,其特征是,计算机控制系统对人群定向的正确性进行检测的方法为:计算机控制系统在对人群定向后,计算机控制系统依然自动收集用户语音信息,并依据当前人群定向结果继续与第一数据库进行反向匹配即根据人群定向结果匹配专业高频词汇,得到反向匹配结果,该结果为专业高频词汇,如果用户语音信息与反向匹配结果误差小于等于设定值,计算机控制系统则认为人群定向正确。5.如权利要求4所述的基于全息成像和语音识别的交互三维立体影像系统,其特征是,计算机控制系统根据人群定向的结果,进一步从第二数据库即定向人群专业用语和常用语数据库进行搜索得到最终结果,该结果为符合定向人群的专业用语和常用语。6.如权利要求1-5任一所述的基于全息成像和语音识别的交互...

【专利技术属性】
技术研发人员:燕小成吕蕾吴艳娜周栋梁
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1