当前位置: 首页 > 专利查询>中山大学专利>正文

一种标记语言驱动的中国手语合成系统技术方案

技术编号:7787055 阅读:288 留言:0更新日期:2012-09-21 09:52
本发明专利技术公开了一种标记语言驱动的中国手语合成系统。该系统包括两个模块:手语韵律控制器和手语行为合成器,并采用中国手语标记语言作为系统输入和模块间的数据接口。通过该系统可以提供规范化、形象化的中国手语描述,符合中国手语语法规范,同时具备良好的扩展性。

【技术实现步骤摘要】

本专利技术涉及数字家庭
,尤其涉及一种标记语言驱动的中国手语合成系统
技术介绍
随着人机交互技术的不断发展,具有高度真实感的虚拟形象(Embodied Agent)因其更低的人力消耗、更灵活的产生、编辑方式被广泛应用于各种交互领域,推动人机交互接口向着更为友好、自然的方式发展,手语合成更是其中的一项重要应用。由于聋人对由口语文法创建的书面文本存在阅读障碍使其对信息的接收效率远低于健听人,所以目前手语合 成研究主要集中在自然文本到手语动画的实时翻译、合成技术,其核心作用是辅助聋人无障碍地接受和理解健听人创建的信息,为其搭建无障碍的信息交流平台。手语作为一种独立的视觉语言,它的主要特点就是多模式(手、头部、面部表情、身体)协同发音,主要目的是表达语义和交流情感.在语言学中,韵律的概念最为突出的体现了人类表达中最有别于机器合成语言的特征节奏、音调和情感等。在手语表达中,这种韵律特征更是通过多种发音方式协同表达,而且和语义、语法密切相关。现有手语合成系统主要研究手势的可视化方法,缺乏对于韵律特征的有效表达,尤其是非手部行为的表达,不仅影响合成效果的真实感还会导致可懂度的下降甚至产生理解上的歧义。在智能虚拟人研究领域,越来越多的研究人员开始关注于人类交流过程中真实感姿态表达方式以及情绪变化对行为的影响等。其中,会话虚拟人(EmbodiedConversational Agent, ECA)与手语合成有着最为相似的研究背景。ECA关注口语交流环境中虚拟人整体行为的产生,其中非语音行为的多模式协同作为口语表达的辅助要素对于传递语义和情感、构建真实感的虚拟人起十分重要的作用。ECA合成系统通过将人类学、心理学、语言学等多学科知识引入到虚拟人行为建模中,构建基于语义、情感、个性等特征量的多模式行为产生控制模型,提高合成行为的灵活性、多样性,使虚拟人能够更具智能化、情感化,更接近人类表达和交流时的真实状态。由于脱离了有声语言这种载体,手语中非语音行为所包含的信息远远超过了一般健听人交流中自然、随机、无特定表征的伴随动作中的信息量,在语言表达的可懂度和真实感上起决定性的作用,因此构建与手语表达特征相适应的多模式行为计算模型将对提高合成效果的可懂度和真实感起重要作用。目前经典的手语合成架构如图I所示通常分为三个处理阶段。第一阶段,完成自然语言到手语语法结构的转换;第二阶段完成动画参数的生成;第三阶段完成绘制和渲染。在相邻的两个阶段间存在通用的、统一的数据接口,音韵层接口(phonetic-levelinterface)和绘制层接口(rendering-level interface)。完成从自然文本到绘制参数的数据转换。语音层接口即手语描述语言的引入,为分离合成内容的剖建阶段与产生阶段提供了有效的支持。手语描述语言既可以通过自然语言处理模块自动产生,又可以通过建立专属的编辑器提供便捷的内容编辑和共享。经规范化设计的手语描述语言填补了自然文本中所缺失的信息,增加了灵活性和可控性,为提升手语动画的表现力,提高真实感及可懂度奠定了基础。手语中定义了五种音素,手形、手掌的朝向、位置、运动和非手部的行为,不同的音素组合构成了不同的手势。语言学家通过构建基于音素的符号系统来记录每个手势的构成,进而描述手语的表达内容。最初语言学上的手语符号系统只是作为手语的书面记录方式而被创建.现在这些符号描述被用作合成系统的语音层接口 .提供准确的行为信息作为动画的驱动脚本。这些直觉化的符号描述虽然易于被人理解却不利于机器处理.所以目前大多数合成系统都设计了基于XML格式的标记文本作为符号系统的等价应用。现有手语描述语言中存在如下需要改进的问题(I)缺乏中国手语特性支持现有手语描述语言还不具备普遍适用各种语言的能力,对中国手语中的一些特殊现象和组成结构并不适用。(2)缺乏韵律标记现有手语描述语言建立在对字面内容翻译的基础上,缺乏对语 义、韵律特征的描述。这类信息往往通过抽象描述进行定义,并可采用多种方式进行表达,在功能表述与行为选择间存在多对多的关系。尤其是在视觉语言中,韵律通过一种复杂的涉及全身运动的协作方式来表达,例如疑问的语气可表现为头部的倾斜、眉毛的上扬或者其它依据上下文语义及个性原因所产生的行为。(3)缺乏高层标记定义现有的手语描述语言主要工作于语音层数据接口,在语音层直接定义行为构成虽然能够对表达提供有效的细节描述,如手势音素构成以及身体其它部位的运动方式,但是会在一定程度上限制合成效果的多样性与自然度,造成虚拟人动作的呆板与机械化。此外.这种设计结构并不能有效支持韵律模型的产生机制,并对人工编辑提出了较高的知识水平要求。
技术实现思路
本专利技术的目的是为了克服现有技术的缺陷,提供一种标记语言驱动的中国手语合成系统,通过该系统可以提供规范化、形象化的中国手语描述,符合中国手语语法规范,同时具备良好的扩展性。一种标记语言驱动的中国手语合成系统,其由两个模块组成手语韵律控制器和手语行为合成器,并采用中国手语标记语言作为系统输入和模块间的数据接口,具有功能层和音韵层两层结构;手语韵律控制器模块处于韵律实现模型的最上层,完成韵律控制模型定义的功能,将抽象韵律描述转化为具体行为描述的能力,提供对于不同层次文档的处理能力,即识别功能层元素的能力,并提供将其转化为音韵层元素的处理能力,处理能力的高低取决于系统所能识别的元素数量和具体的韵律控制模型;手语韵律控制器应首先根据标记语言的DTD文件验证文档元素的有效性,对不符合标记语言设计规范的文档提出警告,并有权拒绝接受处理;手语行为合成器模块处于韵律实现模型的最下层,完成韵律产生模型定义的功能,将韵律参数转化为可被直接绘制的参数,并提供最终的实现。手语韵律控制器的核心功能是对手语标记语言文档进行处理,实现功能层元素标记到音韵层标记的转化,具体的实现流程为韵律控制器首先将未处理过的手语标记语言文档读入内存,解析并建立用于修改和查找的DOM树,并执行如下的处理a.语法行为的计算即对功能层标记进行展开,在DOM中插入相应的音韵层描述,韵律控制器会从根节点开始顺序扫描文档,为每个词和词根元素建立默认的音韵层描述,包括手部语法行为描述;b.韵律行为选择和韵律参数调整从输入文档的韵律结构可分析得出,按照内部结构优先的原则,控制器从文档的最内层韵律结构开始遍历查找是否存在抽象韵律描述。手语行为合成器包含三个主要的功能标记解析,标记解析阶段主要完成对文档的DOM树的构建,提取关于行为描述的元素和同步关系.用于后续阶段参数生成的计算;参数生成,参数生成模块作为韵律实现模型的最底层,根据文档解析后得到的行为描述,从相应的多模式运动数据库中查找匹配数据,按照韵律需求调整数据,生成渲染参数;渲染,采用动画渲染,根据运动数据帧中的FAP值和FBP值分别驱动身体各部分,逐帧绘制、实现连贯的手语动画。参数生成中,时间计算动画参数的生成需要获得三部分的参数,行为的绝对时间和持续时长、行为方式信息以及行为质量信息;关于行为方式和行为质量信息均可从CSLML中直接提取.因此该阶段的主要任务就是获得时间信息;在手语运动中.手部时间是整体行为时间的基线;需要首先定义每个手势的时长,并通过分析标记在CSLML中的韵律结构和同步参数决定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标记语言驱动的中国手语合成系统,其特征在于,该系统由两个模块组成手语韵律控制器和手语行为合成器,并采用中国手语标记语言作为系统输入和模块间的数据接口,具有功能层和音韵层两层结构;手语韵律控制器模块处于韵律实现模型的最上层,完成韵律控制模型定义的功能,将抽象韵律描述转化为具体行为描述的能力,提供对于不同层次文档的处理能力,即识别功能层元素的能力,并提供将其转化为音韵层元素的处理能力,处理能力的高低取决于系统所能识别的元素数量和具体的韵律控制模型;手语韵律控制器应首先根据标记语言的DTD文件验证文档元素的有效性,对不符合标记语言设计规范的文档提出警告,并有权拒绝接受处理;手语行为合成器模块处于韵律实现模型的最下层,完成韵律产生模型定义的功能,将韵律参数转化为可被直接绘制的参数,并提供最终的实现。2.如权利要求I所述的系统,其特征在于,手语韵律控制器的核心功能是对手语标记语言文档进行处理,实现功能层元素标记到音韵层标记的转化,具体的实现流程为韵律控制器首先将未处理过的手语标记语言文档读入内存,解析并建立用于修改和查找的DOM树,并执行如下的处理a.语法行为的计算即对功能层标记进行展开,在DOM中插入相应的音韵层描述,韵律控制器会从根节点开始顺序扫描文档,为每个词和词根元素建立默认的音韵层描述,包括手部语法行为描述;b.韵律行为选择和韵律参数调整从输入文档的韵律结构可分析得出,按照内部结构优先的原则,控制器从文档的最内层韵律结构开始遍历查找是否存在抽象韵律描述。3.如权利要求I所述的系...

【专利技术属性】
技术研发人员:罗笑南陈家熙谭刘源刘海亮林谋广
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1