语言变换规则产生装置、语言变换装置及程序记录媒体制造方法及图纸

技术编号:2883964 阅读:161 留言:0更新日期:2012-04-11 18:40
当一部分输入语音句子包含非训练部分时或者当部分错误地进行语音识别时,无法做向目标语言的变换。此外,必须人工产生变换所需的短语字典和短语之间规则。因此,开发在效率上是低的且需要花更多劳力。装置包括语言规则产生部分,它统计地自动地训练来自对照翻译大全的部分字或字串的语法和语义约束规则,其中以源语言部分句子对应于目标语言部分句子的形式描述规则;语音识别部分,它利用所产生的语言规则在源语言的语音上进行语音识别,并输出识别的结果;以及语言变换部分,它利用相同语言规则把源语言句子变换为目标语言句子。即使当一部分输入语音句子含有非训练部分时或者当部分错误地进行语音识别时,可确保能够向目标语言的变换。此外,能够自动地产生变换所需的短语字典和短语之间规则,无需很多人工帮助。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及把输入语音或输入文本变换为另一种语言或另一种文体的语言变换装置,本专利技术还涉及产生语言变换装置的变换规则的语言变换规则产生装置。
技术介绍
以下将描述传统技术,作为语言变换装置的一个例子,它将输入语言翻译为另一种语言(以下称为解释)。在解释装置中,解释是通过依次解释语音识别以及语言翻译实现的,前者把作为声音信号输入的发声句子变换为由文本字串表示的输出句子,后者接收由文本字串所表示的句子,然后将其翻译为另一种语言的句子。语言翻译部分由对输入句子的句法或语义结构作分析的语言分析部分;基于分析结果把输入句子变换为另一种语言的语言变换部分;以及从翻译的结果产生自然输出句子的输出句子产生部分构成。然而,在语音识别部分错误地识别了一部分发声句子的情况中,或者在发声句子本身在句法和语义两方面都反常的情况中,诸如把谐音和复述等插入句子中的这些情况或者在该句子还未完成时结束发声的这些情况,存在一个问题,即,即使当语音识别的结果被输入到语言分析部分中时,未能作出分析,因此不输出翻译结果。为了解决这一问题,提出一种结构,其中将句子划分为短语,分别作出短语内规则和短语间规则,仅仅利用短语内规则分析不完整发声,由此能够输出分析的结果。(例如Takezawa和Morimoto电子和通信工程师协会会刊D-ⅡVol.J79-D-Ⅱ(12))。附图说明图14示出传统技术的短语内和短语间规则的例子。在这一例子中,对于“KONBAN,SINGLE NO HEYA NO YOYAKAU ONEGAI NE”的大全例子,基于语法规则(对书面语言也是共同的),在诸如短语内规则302的树结构中描述了短语内规则,并在训练大全的短语当中以邻接几率描述短语间规则。例如,正如短语间规则303所示,描述短语间规则。在对输入句子进行分析时,从句子的开头起,把短语内规则依次应用到短语。对输入句子进行分析,因为短语彼此相连接,以致于对于每个短语,更高邻接几率的候选短语彼此相邻接。在这一句子分析方法中,即使当一部分句子被错误地识别并且整个句子的正常分析失败,也能够正确地分析不包括错误识别的这部分的短语。因此,形成一种方案,使得通过仅翻译被分析的部分短语便能够部分地输出翻译结果。为了解决这一问题,提出另一种方法,其中与按照语法进行语言分析的传统技术不同,从包括通过传统语法不能分析的发声句子的发声句子例子中抽取相应源语言和目标语言句子的对照翻译(parallel translation)短语,产生对照翻译短语字典,其中以尽可能远地概括的形式描述短语对,利用字典进行语言分析和语言变换。(例如,Furuse、Sumida和Iida,日本信息处理协会会刊Vol35,No3,1994-3)。图15示出传统技术的语言变换规则产生装置。在进行解释之前,从发声句子对照翻译大全(parallel translation corpus)先产生对照翻译短语字典。此外,在这种方法中,考虑到一部分字是错误的或省略的情况,把发声句子划分为短语,产生短语内规则和短语间依赖规则。首先,词态分析部分360分析源语言句子和目标语言句子的词态,将句子变换为词态串。接着,短语确定部分361以短语单元对源语言和目标语言的词态串进行划分,然后产生短语内规则和短语间依赖关系规则。在这种情况中,考虑到在部分句子中对照翻译的对应关系是显然的,以人工方式确定每个短语单元,除此之外,每个短语单元是在语义上一致的单元。例如,把“HEYA NO YOYAKU OONEGAISHITAINGESUGA”和“I’d like to reserve a room”的对照翻译句子例子划分为两个对照翻译短语(a)和(b),或者(a)“HEYA NO YOYAKU”和“reservea room”,和(b)“O ONEGAISHITAINGESUGA”和“I’d like to”,对“(a)0(b)SURU”和“(b)to(a)”的依赖关系进行规则化。把对照翻译短语存储在对照翻译短语字典362中,把以对照翻译形式表示的短语之间的依赖关系存储在短语间规则表363中。在包含在对照翻译大全中的所有发声句子上进行这一过程。根据句子的语义信息以及诸如句子不合语法程度的因素,确定短语的这一划分和依赖关系。因此对于每个句子难以自动地确定它们。通常地,必然地,它们以人工方式确定。然而,在第一个惯例的句子分析装置中,要处理的短语是仅与源语言相关的语言相关短语,通常不能与目标语言的短语单元相一致。因此,该装置存在一个问题,即,即使当在源语言中是正确的短语输入到语言变换部分中时,通常是这些短语最终不能被接受。利用语言独立短语也能够启用第一个惯例的方案。在这种情况中,语言独立短语的分析必须以人工方式产生,由此引起进一步的问题,即开发需要大量时间,规则性能由于人工产生的判别标准的摆动而发生畸变。在第二个惯例中产生对照翻译短语字典的方法中,不存在自动地分析发声句子的语义信息和语法信息的装置,因此这些信息必须以人工方式产生。因此,该方法存在一个问题,即开发需要大量时间,规则性能被人工产生的判别标准的摆动而发生畸变。当改变解释装置的目标任务时,或者当改变源语言和目标语言的种类时,不能应用已经建立的规则,所有规则必须再产生。因此,开发效率低且有些麻烦。在短语字典362和短语间规则表363中,短语单元是通过重点强调对照翻译大全的对应关系而确定的,对于短语单元对于由语音识别部分364的识别是否足够不作评价。虽然以人工方式判定该短语对于语音识别是否足够,确定短语单元是困难的。该方法存在一个问题,即利用已确定的短语进行识别时,不能保证识别率。专利技术的公开本专利技术的目的是提供一种能够解决以上讨论问题的语言变换装置,其中,即使当输入语音句子含有未训练部分时或者当语音识别是部分错误地进行时,能够确保向目标语言的变换,其中,能够自动地产生变换所需的短语字典和短语间规则,无需很多人工帮助。为了解决这些问题,本专利技术的第一方面(对应于权利要求1)是针对一种语言变换装置,其特征在于该装置包括存储语言规则的存储装置,语言规则是从训练数据库由字或字串的训练语法或语义约束规则获得的,在训练数据库中以语音或文本形式输入并为要作目标语言变换的句子(在下文中把这种句子称为源语言句子,把已经经过语言变换与其对应的句子称为目标语言句子)与目标语言句子相配对(以下把这种数据库称作为对照翻译大全); 利用所存储的语言规则对输入语音进行语音识别以及以目标语言变换的句子形式输出识别结果的语音识别部分;及利用与所述语音识别部分中使用的相同语言规则把要作目标语言变换的句子变换为经过了语言变换的句子的语言变换部分。此外,本专利技术的第二方面(对应于权利要求2)是指根据本专利技术第一方面的语言变换装置,其特征在于语言规则是通过把要作目标语言变换的句子和已变换句子分割为各个部分,在各个部分中两种句子形成语义一致性(称为与文体无关(style-independent)短语),以及作出区分与文体无关短语内语言规则与与文体无关短语之间语言规则的规则而产生的。此外,本专利技术的第三方面(对应于权利要求3)是指根据本专利技术第二方面的语言变换装置,其特征在于语言规则是通过作出有关与文体无关短语内语法或语义规则上和与文体无关本文档来自技高网...

【技术保护点】
一种语言变换装置,其特征在于所述装置包括:存储语言规则的存储装置,语言规则从训练数据库由对字或字串的训练语法或语义约束规则获得的,在训练数据库中以语音或文本形式输入并为要作目标语言变换的句子(在下文中把这种句子称为源语言句子,把已经经过与其对应的语言变换的句子称为目标语言句子)与目标语言句子(以下把数据库称作为对照翻译大全)相配对;利用所存储的语言规则对输入语音进行语音识别以及以目标语言变换的句子形式输出识别结果的语音识别部分;及利用与所述语音识别部分中使用的相同语言 规则把要作目标语言变换的句子变换为经过了语言变换的句子的语言变换部分。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:胁田由实
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1