音节划分方法和音节划分设备技术

技术编号:10806759 阅读:91 留言:0更新日期:2014-12-24 13:13
本发明专利技术公开了音节划分方法和音节划分设备。根据本发明专利技术的音节划分方法包括:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。

【技术实现步骤摘要】
音节划分方法和音节划分设备
本专利技术一般地涉及自然语言处理领域。具体而言,本专利技术涉及一种适合音译的多音节语言单词的音节划分方法和音节划分设备。
技术介绍
在使用不同语言的人们进行交流的过程中,存在将源语言翻译为目标语言的需要。随着社会和科技的发展,各种语言中都产生了越来越多的新词汇。这些新词汇往往由于其代表的内容,如科技词汇的新颖性和先进性,或社会现象词汇的流行性等因素,而在产生后的短期内由使用与新词汇所属语言不同的语言的人们使用。一般而言,人们在使用这样的新词汇时往往采用音译,或者直接使用新词汇本身,即使用新词汇所属的语言的发音来诵读新词汇。另外,由于历史的原因,有些已有词汇的正规译文,也是其音译译文。此外,人名、地名等单词,也通常采用音译。对于多音节语言的单词,无论是音译还是按原文诵读,都存在如何按音节划分单词的问题。例如,英文单词“Dray”是读作(译作)“缀”还是“德瑞”,或是“德拉伊”。多音节语言是指该语言中的一个基本单元(如英文单词)中存在多个音节。多音节语言的示例包括英语、法语、俄语、西班牙语、拉丁语等。单音节语言是指该语言中的一个基本单元(如中文的字)中仅存在一个音节。单音节语言的示例包括中文、日语等。对于多音节语言的单词来说,音节的正确划分有利于人们正确地拼写、背诵、读、音译该单词。传统的音节划分方法多基于规则来划分多音节语言单词。由于规则的适用性和覆盖面有限、规则与规则之间可能存在矛盾等原因,传统方法的正确率不高。因此,期望能够以较高的正确率将适合音译的多音节语言单词按音节进行划分。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术的目的是针对现有技术的上述问题,提出了一种能够以较高的正确率将适合音译的多音节语言单词按音节进行划分的音节划分方法和音节划分设备。为了实现上述目的,根据本专利技术的一个方面,提供了一种适合音译的多音节语言单词的音节划分方法,该方法包括:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。根据本专利技术的另一个方面,提供了一种适合音译的多音节语言单词的音节划分设备,该设备包括:音节划分枚举装置,被配置为:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;总得分计算装置,被配置为:根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;结果确定装置,被配置为:选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述方法。此外,根据本专利技术的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述方法。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:图1示出了根据本专利技术的实施例的已知音节表获取方法的流程图;图2示出了根据本专利技术的实施例的音节划分方法的流程图;图3示出了根据本专利技术的实施例的可能音节划分方式的枚举方法的流程图;图4示出了根据本专利技术的实施例的音节划分方式总得分计算方法的流程图;图5示出了根据本专利技术实施例的音节划分设备的结构方框图;以及图6示出了可用于实施根据本专利技术实施例的方法和设备的计算机的示意性框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。另外,还需要指出的是,在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。本专利技术的基本思想是利用经训练过程得到的已知音节表和双语资源来按音节划分适合音译的多音节语言单词。在这个过程中,利用训练语料得到已知音节表,已知音节表给出了多音节语言的已知音节及其特征概率。已知音节示出了多音节语言的音节形式,可以用来推测多音节语言单词的可能划分方式。特征概率从音节在单词中的位置和音节前后音节等方面体现了多音节语言的语言特点,可以用来评价多音节语言单词的可能划分方式的置信度。与多音节语言单词对应的单音节语言译文,能够从双语角度帮助评价多音节语言单词的可能划分方式的置信度。基于从上述两种途径获得的置信度,可以选择最可能的音节划分方式作为音节划分结果。本专利技术的方法假设的前提是已经获得多音节语言的已知音节表,并且具有待划分音节的多音节语言单词对应的单音节语言单词。显然,对于每种多音节语言,存在一个已知音节表。多音节语言的已知音节表可通过下面详述的训练过程获得。多音节语言的已知音节表包含已知音节及其特征概率。已知音节是指预先得到的多音节语言中已知的音节形式。由于多音节语言中的音节形式是有限种的,所以可以通过训练等手段预先获取。训练语料库越大,越全面,所得到的已知音节就越多,越全面。已知音节的特征概率包括:位置概率和相邻概率。已知音节的位置概率反映了音节在单词中的位置的可能性,其包括:音节位于单词的首部的概率、音节位于单词的尾部的概率、音节位于单词的首部和尾部之间的中部的概率。这样的位置信息遵循多音节语言中已知音节的语言规律,能够通过统计得到,可以用于评价多音节语言单词的可能划分方式的置信度。已知音节的相邻概率反映了相邻音节的置信度,其包括:音节在其它音节紧前的概率、音节在其它音节紧后的概率。相邻概率从音节的上下文角度给出音节与前后音节组合的可能性,能够通过统计得到,可以用于评价多音节语言单词的可能划分方式的置信度。这里的相邻概率可以是二元的,也即其它音节可以是一个音节。当然,视计算量的大小和系统的要求,也可以选用三元的相邻概率,即其它音节为两个音节。本文档来自技高网...
音节划分方法和音节划分设备

【技术保护点】
一种适合音译的多音节语言单词的音节划分方法,包括:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。

【技术特征摘要】
1.一种适合音译的多音节语言单词的音节划分方法,包括:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果;其中所述根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分包括:根据所述已知音节的特征概率,计算每种音节划分方式的概率得分;根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度,计算每种音节划分方式的双语得分;根据所述概率得分和所述双语得分,计算所述每种音节划分方式的总得分;其中所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度包括:作为所述对应的单音节语言单词的读音形式与所述每种音节划分方式在字母个数上的相似度的个数相似度、和/或作为所述对应的单音节语言单词的读音形式与所述每种音节划分方式在最短编辑距离上的相似度的距离相似度;并且所述根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度计算每种音节划分方式的双语得分包括:根据所述个数相似度和/或所述距离相似度,计算所述双语得分;其中计算每种音节划分方式中的各个音节与所述对应的单音节语言单词的读音形式中的各个音节之间的在最短编辑距离上的相似度的总和,作为所述距离相似度;其中针对所述每种音节划分方式中的音节个数与所述对应的单音节语言单词的读音形式的音节个数不同的情况,在所述计算相似度的总和的步骤之前,通过在音节个数较小的所述音节划分方式或所述读音形式的末端填充预定符号,使得所述每种音节划分方式中的音节个数与所述对应的单音节语言单词的读音形式的音节个数相同;其中通过如下步骤来得到所述已知音节表:获得作为多音节语言单词的多音节语言字母串、以及对应单音节语言音译文的读音形式;根据所述读音形式,按音节划分所述多音节语言字母串,从而获得所述已知音节;根据划分结果,通过统计来计算所述已知音节的特征概率;其中所述读音形式包括与所述单音节语言音译文中的多个单音节语言字对应的多个读音音节;并且其中所述根据所述读音形式按音节划分所述多音节语言字母串包括:确定与所述多个读音音节对应的多音节语言字母;将所确定的多音节语言字母前的位置确定为多音节语言音节的边界,从而将所述多音节语言字母串按音节划分;其中所述确定与所述多个读音音节对应的多音节语言字母包括:人工对少量多音节语言字母串以及对应的读音形式进行所述确定步骤,以得到训练语料;利用训练语料来训练能够执行所述确定步骤的对齐器;利用训练好的对齐器,对余下的多音节语言字母串以及对应的读音形式进行所述确定步骤。2.如权利要求1所述的方法,其中所述对于给定的多音节语言单词根据已知音节表枚举所有可能的音节划分方式包括:将构成所述多音节语言单词的单个字母或字母串与所述已知音节表中的已知音节进行匹配;将与所述已知音节匹配上的单个字母或字母串,划分为一个音节;将不能与任何所述已知音节匹配上的单个字母或字母串中的每个字母,划分为一个音节;所有互不矛盾的划分结果的组合构成所述所有可能的音节划分方式。3.如权利要求1所述的方法,其中所述已知音节的特征概率包括:反映音节在单词中的位置的可能性的位置概率、和/或反映相邻音节的置信度的相邻概率;其中所述位置概率包括:音节位于单词的首部的概率、音节位于单词的尾部的概...

【专利技术属性】
技术研发人员:李贤华张姝孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1