当前位置: 首页 > 专利查询>孙瑞峰专利>正文

一种对语音的语义感知理解的方法和系统技术方案

技术编号:12699606 阅读:90 留言:0更新日期:2016-01-13 18:56
本发明专利技术是一种对语音的语义感知理解的方法和系统,语音是最自然的交互方式被广泛的应用在导航、智能手机地图等领域,其交互的语音中含有GIS地理信息、导航信息和运动指令等与空间定位坐标相关联的语义信息,其不仅在时序上具有连续性,而且在空间上具有相对逻辑分布的结构特点,针对这一特点应用三维音频定位技术处理语音,把语音的语义在时序上连续的组成要素中与空间定位相关联的部分,在三维虚拟声场中静态和动态展开,并表达其内在的逻辑空间分布结构关系,使人的听觉器官感知到其在空间的相对逻辑分布,进而增强对语音所表达的静态和动态的语义信息的理解。

【技术实现步骤摘要】

本专利技术属于G10L(语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码)、G01S19/38(利用卫星无线电信标定位系统传输的信号来确定导航方案)和H04R5/033(用于立体声通信设备中的头戴耳机)的交叉领域。
技术介绍
本专利技术属于一种人机语音的语义感知理解的方法和系统,语音是最自然的交互方式被广泛的应用在导航、智能手机地图等领域,其交互的语音中含有GIS地理信息、导航信息和运动指令等与空间定位坐标关联的语义信息,其不仅在时序上具有连续性,而且在空间上具有相对逻辑分布的结构特点,而现有的交互方法的语音仅能表达语义的时序性,不能表达相对的空间分布性,因而不具备使人听力器官感受到语义要素在空间分布的结构场景,导致对此类语义的理解判断,需要人的生活经验和知识参与思维过程,增加了人的思维强度,不能深度挖掘人的听力器官的潜力进而辅助思维理解判断。现有的语音交互方法具有以下缺点:1.语音有且只包含语义信息,例如“前方左转”、“前方直行“等。2.语音不包含语义所表达的静态的方位信息,例如”左转“的语音中表达的“左”在现实环境中在那个方位。3.语音不包含语义所表达的动态的感官体验轨迹信息,例如“向左转”的语音中表达的“向左转”这个动作的动态的轨迹感官体验信息。另一方面,音频定位技术作为一门新兴的边缘交叉学科,涉及听觉心理学、听觉生理学、人工智能和高性能计算机系统等多个研究领域,且具有广泛的应用前景,它可以帮助传递和识别可视信息,增强三维仿真环境的逼真度、想像力和沉浸感,在军事和民用方面有广泛的应用。音频定位技术是通过对一包含单个或者多个模拟声源的声场进行建模,以达到对各声源音频定位的目的。这样,人们可以获得该声场中任意位置的双耳听觉感受【1】。针对现有语音交互方法的缺点,应用音频定位技术处理语音,把语音的一系列语义片段中与空间定位相关联的要素,在虚拟声场中展开,使人的听力器官感受到其在空间的相对逻辑分布,进而直接去理解语音所表达的语义信息。解决现有语音交互方法的语义内容的表达方式维度低的缺陷,变革为直接用人的听力本能感官功能去感知理解语义,而不是根据语音包含的语义用大脑思维做二次理解判断,实现对语音语义的听觉器官感知理解。可以简单地说,现有交互方法的语音信息需要使用大脑的高级区域去理解,而对本专利技术的语音交互方法的语音只需要使用大脑的低级区域即可理解,减少了人的大脑的工作强度,是生活更加的轻松和惬意。
技术实现思路
为了解决现有语音交互方法无法体现语义的相对空间逻辑分布结构的技术缺陷,而提出一种对语音的语义感知理解的方法,本专利技术是通过以下技术方案实现的,如图2。 1.一种对语音的语义感知理解的方法,用语音作为人机交互信息,通过发声装置传递到听觉器官,其特征是根据语音的语义信息,在空间声场的对应方位产生虚拟声源。2.根据权利1所述的对语音的语义感知理解的方法,其特征在于:使用音频定位处理技术,把语音中与空间位置相关的语义要素,在虚拟空间声场的对应方位实现定位,按语义的内在相对空间逻辑关系构建虚拟声场。3.根据权利1所述的对语音的语义感知理解的方法,其特征在于:根据语音语义信息和方位传感器输出的人头方位信息,实现空间全局坐标系和头部虚拟声场局域坐标系的转换,把语义信息在全局空间的定位坐标转换为头部虚拟声场中的局域定位坐标。4.根据权利1所述的对语音的语义感知理解的方法,其特征在于:虚拟声源不必须包含语义。5.根据权利1所述的对语音的语义感知理解的方法,其特征在于:虚拟声源按语义表达的空间运动方向进行移动形成动态的运动轨迹。6.一种对语音的语义感知理解的系统,包括发声装置模块(201),其特征是包括虚拟声场模块(200),其输入语音和语义信息,输出语义在空间声场中展开的语音到发声装置模块(201) ο7.根据权利6所述的对语音的语义感知理解的系统,其特征是包括方位传感器模块(202),其输出人头方位信息到虚拟声场模块(200)。与现有方法实现原理的对比 如图1,在手机导航地图的应用中,导航语音通过耳机传送给用户,例如“向左转”语音,在这段语音中的语义序列为A(向)B (左)C(转),其中B是具有空间方位的的要素,AC是指令动作要素。如上图图1中所示,采用本专利技术方法把含有A (向)B (左)C (转)语义的语音(1),经过三维音频定位技术处理(2),在人的头部局部虚拟声场中ABC这3个语义要素呈现逆时针圆弧分布(3),并且位于头部虚拟声场的左侧,使得用户感觉到“向左转”的语音从正前方位置向左侧方向逆时针旋转穿过,由此对这段语音的理解直接简单,避免了用户判断“左“这个方位和“向左转”的这个运动指令的思维理解过程,完成了对ABC语音中静态的B (左)的方位判断,并且实现了动态的A(向)C(转)的动作指令的理解,而现有语音交互方法,ABC(向左转)被静态的定位到虚拟声场的某个与语音无关联的区域(4),并且无法动态的表达A(向)C(转)语义要素的运动指令,因此与现有方法对比,本专利技术的语音交互方法变革性的深度挖掘了听觉器官的潜在能力,创新了人对语音语义的感知理解的这种新方式。有益效果 对比现有语音方法,本专利技术的方法构建了表达语音语义要素的内在的空间逻辑分布结构的三维虚拟声场,使得听觉器官直接感知语音语义且实现理解判断,降低了对人生活经验和知识的依赖。主要具有以下优点:当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种对语音的语义感知理解的方法,用语音作为人机交互信息,通过发声装置传递到听觉器官,其特征是根据语音的语义信息,在空间声场的对应方位产生虚拟声源。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:孙瑞峰
申请(专利权)人:孙瑞峰
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1