基于声音生成AR内容的方法、存储介质和装置制造方法及图纸

技术编号:19861448 阅读:17 留言:0更新日期:2018-12-22 12:36
本发明专利技术提供一种基于声音生成AR内容的方法、存储介质和装置,该方法包括:步骤11:获取当前AR环境中的实时语音数据;步骤131:判断实时语音数据是否包含说话人,如果是,则将实时语音数据中说话人的说话内容转换为文字并提取关键语义信息;步骤132:提取实时语音数据中的人为非说话声音或自然界声音;步骤133:定位说话人、人为非说话声音或自然界声音的声源位置;步骤15:根据关键语义信息、人为非说话声音或自然界声音匹配场景;步骤17:根据关键语义信息、声源位置、场景或AR环境中的真实场景图像等生成AR内容并显示。基于本发明专利技术的方法,可以基于输入语音动态生成AR内容,实现听觉信息的AR智能展示,为用户提供更加便利、智能的服务和体验。

【技术实现步骤摘要】
基于声音生成AR内容的方法、存储介质和装置
本专利技术涉及计算机领域,特别涉及一种基于声音生成AR内容的方法、存储介质和装置。
技术介绍
典型的增强现实技术AR(AugmentedReality),是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术,这种技术的目标是在屏幕上把虚拟世界嵌套在现实世界展示并进行互动。AR系统具有三个突出的特点:真实世界和虚拟的信息集成;具有实时交互性;是在三维尺度空间中增添定位虚拟物体。AR技术可广泛应用于多个领域。AR实现原理,首先摄像头和传感器采集真实场景的视频或者图像,传入后台的处理单元对其进行分析和重构,并结合头部跟踪设备的数据来分析虚拟场景和真实场景的相对位置,实现坐标系的对齐并进行虚拟场景的融合计算;交互设备采集外部控制信号,实现对虚实结合场景的交互操作。系统融合后的信息会实时地显示在显示器中,展现在用户的视野中。当前的AR技术主要是基于摄像头和传感器采集的真实场景的视频或图像进行分析,语音进行辅助。在AR场景下的语音辅助作用,主要体现在两处:语音指令检测和语音指令编辑物体。语音指令检测是指,在检测识别上,重点检测图像和视频,语音指令检测用于强调增强辅助信息,如检测到人脸后,语音指令要求显示年龄和性别;语音指令编辑物体,是指在生成AR物体后,语音对AR物体的二维或三维信息进行编辑。现有技术存在的问题包括:(1)、缺乏基于声音的AR生成:当前主要是基于现实图像实现增强现实图像,语音只能进行辅助。不能完全基于声音输入生成AR内容,实现听觉信息的AR智能展示。(2)、被动化的语音触发AR方式:目前AR领域智能语音的应用较为局限,主要在于语音指令检测和语音指令编辑物体。AR生成是被动生成的,需要首先下达语音指令,不能自然而然得主动生成AR内容。(3)、语音理解范围小:语音指令辅助检测技术只能在视觉检测到图像或视频之后,简单的根据固定名词信息进行调取,不能深入全面进行自然语言理解,并于理解后可视化展示出来。(4)、声音分析范围局限:除了语音以外,其它人为声音、自然界声音及声源信息,人类凭自己的耳朵无法辨析。目前在AR领域还无法实现对这些声音信息实现展示。(5)智能化程度低:当前AR设备只能直观处理声音,不能处理后生成机器自己的解析和判断,并把分析结果通过AR展示出来。缺乏运用AI技术帮助人们分析判断声音的智能功能。(6)、缺少个体差异:目前AR设备针对不同的用户往往生成相同的AR内容,不能实现AR内容的个体差异化。
技术实现思路
有鉴于此,本专利技术提供一种基于声音生成AR内容的方法、存储介质和装置,以解决上述至少一个现有AR技术中语音应用的局限问题。本专利技术提供一种基于声音生成AR内容的方法,该方法包括步骤11:获取当前AR环境中的实时语音数据后,分别执行步骤131和步骤132;步骤131:判断实时语音数据是否包含说话人,如果是,则将实时语音数据中说话人的说话内容转换为文字,并提取文字的关键语义信息;步骤132:识别并提取实时语音数据中的人为非说话声音或自然界声音;步骤133:定位说话人、人为非说话声音或自然界声音的声源位置;步骤15:根据关键语义信息、人为非说话声音或自然界声音匹配实时语音数据对应的场景;步骤17:根据输入信息生成AR内容并显示,输入信息包括关键语义信息、人为非说话声音、自然界声音、声源位置、场景或AR环境中的真实场景图像。本专利技术还提供一种非瞬时计算机可读存储介质,该非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行如上述的基于声音生成AR内容的方法中的步骤。本专利技术还提供一种基于声音生成AR内容的装置,包括处理器和上述的非瞬时计算机可读存储介质。本专利技术提供了一种更加主动的AR交互方式,可以将语音数据中的内容以AR方式可视化展现出来,智能化地将听觉信息分析判断后转化为AR视觉信息,实现听觉信息的AR智能展示,为用户提供更加便利、智能的服务和体验。附图说明图1为本专利技术方法的流程图;图2为本专利技术方法的第1个实施例;图3为本专利技术方法的第2个实施例;图4为本专利技术方法的第3个实施例;图5为本专利技术方法的第4个实施例;图6为本专利技术方法的第5个实施例;图7为本专利技术方法的第6个实施例;图8为本专利技术方法的第7个实施例;图9为本专利技术方法的第8个实施例;图10为本专利技术方法的第9个实施例;图11为本专利技术方法的第10个实施例;图12为本专利技术方法的第11个实施例;图13为本专利技术方法的第12个实施例;图14为本专利技术方法的第13个实施例;图15为本专利技术方法的第14个实施例;图16为本专利技术方法的第15个实施例;图17为本专利技术方法的第16个实施例;图18为本专利技术方法的第17个实施例;图19为本专利技术方法的第18个实施例;图20为本专利技术方法的第19个实施例;图21为本专利技术方法的第20个实施例;图22为本专利技术方法的第21个实施例;图23为本专利技术方法的第22个实施例;图24为本专利技术的结构图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。本专利技术主要涉及到以下技术:·语音识别技术,也被称为自动语音识别AutomaticSpeechRecognition(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。·自然语言理解,NaturalLanguageUnderstanding俗称人机对话,研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理,使计算机具有理解和运用自然语言的功能。·声纹识别,生物识别技术的一种,也称为说话人识别,包括两类,即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。·声源定位,利用环境中的声音确定声源方向和距离。取决于到达麦克风阵列的声音的物理特性变化,包括频率、强度和持续时间上的差别。基于上述技术,提出本专利技术的基于声音生成AR内容的方法,如图1所示,包括:步骤11:获取当前AR环境中的实时语音数据后,分别执行步骤131和步骤132。需要说明的是,步骤11中的实时语音数据仅针对录音设备(如麦克风)而言,即实时语音数据为录音设备获取的当前语音数据,但是该语音的来源可能是当前AR环境中说话人的说话内容,也可能是AR环境中视频播放设备播放(或回放)的声音。AR环境中的麦克风可实时记录语音数据,并把记本文档来自技高网
...

【技术保护点】
1.一种基于声音生成AR内容的方法,其特征在于,所述方法包括:步骤11:获取当前AR环境中的实时语音数据后,分别执行步骤131和步骤132;步骤131:判断所述实时语音数据是否包含说话人,如果是,则将所述实时语音数据中所述说话人的说话内容转换为文字,并提取所述文字的关键语义信息;步骤132:识别并提取所述实时语音数据中的人为非说话声音或自然界声音;步骤133:定位所述说话人、人为非说话声音或自然界声音的声源位置;步骤15:根据所述关键语义信息、人为非说话声音或自然界声音匹配所述实时语音数据对应的场景;步骤17:根据输入信息生成AR内容并显示,所述输入信息包括所述关键语义信息、人为非说话声音、自然界声音、所述声源位置、所述场景或所述AR环境中的真实场景图像。

【技术特征摘要】
1.一种基于声音生成AR内容的方法,其特征在于,所述方法包括:步骤11:获取当前AR环境中的实时语音数据后,分别执行步骤131和步骤132;步骤131:判断所述实时语音数据是否包含说话人,如果是,则将所述实时语音数据中所述说话人的说话内容转换为文字,并提取所述文字的关键语义信息;步骤132:识别并提取所述实时语音数据中的人为非说话声音或自然界声音;步骤133:定位所述说话人、人为非说话声音或自然界声音的声源位置;步骤15:根据所述关键语义信息、人为非说话声音或自然界声音匹配所述实时语音数据对应的场景;步骤17:根据输入信息生成AR内容并显示,所述输入信息包括所述关键语义信息、人为非说话声音、自然界声音、所述声源位置、所述场景或所述AR环境中的真实场景图像。2.根据权利要求1所述的方法,其特征在于,所述步骤15包括:步骤151:建立场景库,所述场景库至少包含一个场景;步骤152:通过聚类算法将所述场景库中的场景进行分类,分类依据为所述场景库中的每个场景的关键词信息、所包含的人为非说话声音和自然界声音;步骤153:将所述实时语音数据相关的关键语义信息、人为非说话声音或自然界声音与所述场景库进行匹配,其中匹配度最高的场景为所述实时语音数据对应的场景。3.根据权利要求2所述的方法,其特征在于,步骤153中,匹配算法为K最近邻分类算法。4.根据权利要求1所述的方法,其特征在于,所述步骤17中,所述输入信息还包括:所述AR环境中用户的...

【专利技术属性】
技术研发人员:张薇葛玲玲许馨月李文轩姚巍吴楠楠
申请(专利权)人:三星电子中国研发中心三星电子株式会社
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1