【技术实现步骤摘要】
音节划分方法和音节划分设备
本专利技术一般地涉及自然语言处理领域。具体而言,本专利技术涉及一种适合音译的多音节语言单词的音节划分方法和音节划分设备。
技术介绍
在使用不同语言的人们进行交流的过程中,存在将源语言翻译为目标语言的需要。随着社会和科技的发展,各种语言中都产生了越来越多的新词汇。这些新词汇往往由于其代表的内容,如科技词汇的新颖性和先进性,或社会现象词汇的流行性等因素,而在产生后的短期内由使用与新词汇所属语言不同的语言的人们使用。一般而言,人们在使用这样的新词汇时往往采用音译,或者直接使用新词汇本身,即使用新词汇所属的语言的发音来诵读新词汇。另外,由于历史的原因,有些已有词汇的正规译文,也是其音译译文。此外,人名、地名等单词,也通常采用音译。对于多音节语言的单词,无论是音译还是按原文诵读,都存在如何按音节划分单词的问题。例如,英文单词“Dray”是读作(译作)“缀”还是“德瑞”,或是“德拉伊”。多音节语言是指该语言中的一个基本单元(如英文单词)中存在多个音节。多音节语言的示例包括英语、法语、俄语、西班牙语、拉丁语等。单音节语言是指该语言中的一个基本单元(如中文的字)中仅存在一个音节。单音节语言的示例包括中文、日语等。对于多音节语言的单词来说,音节的正确划分有利于人们正确地拼写、背诵、读、音译该单词。传统的音节划分方法多基于规则来划分多音节语言单词。由于规则的适用性和覆盖面有限、规则与规则之间可能存在矛盾等原因,传统方法的正确率不高。因此,期望能够以较高的正确率将适合音译的多音节语言单词按音节进行划分。
技术实现思路
在下文中给出了关于本专利技术的简要概 ...
【技术保护点】
一种适合音译的多音节语言单词的音节划分方法,包括:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。
【技术特征摘要】
1.一种适合音译的多音节语言单词的音节划分方法,包括:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果;其中所述根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分包括:根据所述已知音节的特征概率,计算每种音节划分方式的概率得分;根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度,计算每种音节划分方式的双语得分;根据所述概率得分和所述双语得分,计算所述每种音节划分方式的总得分;其中所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度包括:作为所述对应的单音节语言单词的读音形式与所述每种音节划分方式在字母个数上的相似度的个数相似度、和/或作为所述对应的单音节语言单词的读音形式与所述每种音节划分方式在最短编辑距离上的相似度的距离相似度;并且所述根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度计算每种音节划分方式的双语得分包括:根据所述个数相似度和/或所述距离相似度,计算所述双语得分;其中计算每种音节划分方式中的各个音节与所述对应的单音节语言单词的读音形式中的各个音节之间的在最短编辑距离上的相似度的总和,作为所述距离相似度;其中针对所述每种音节划分方式中的音节个数与所述对应的单音节语言单词的读音形式的音节个数不同的情况,在所述计算相似度的总和的步骤之前,通过在音节个数较小的所述音节划分方式或所述读音形式的末端填充预定符号,使得所述每种音节划分方式中的音节个数与所述对应的单音节语言单词的读音形式的音节个数相同;其中通过如下步骤来得到所述已知音节表:获得作为多音节语言单词的多音节语言字母串、以及对应单音节语言音译文的读音形式;根据所述读音形式,按音节划分所述多音节语言字母串,从而获得所述已知音节;根据划分结果,通过统计来计算所述已知音节的特征概率;其中所述读音形式包括与所述单音节语言音译文中的多个单音节语言字对应的多个读音音节;并且其中所述根据所述读音形式按音节划分所述多音节语言字母串包括:确定与所述多个读音音节对应的多音节语言字母;将所确定的多音节语言字母前的位置确定为多音节语言音节的边界,从而将所述多音节语言字母串按音节划分;其中所述确定与所述多个读音音节对应的多音节语言字母包括:人工对少量多音节语言字母串以及对应的读音形式进行所述确定步骤,以得到训练语料;利用训练语料来训练能够执行所述确定步骤的对齐器;利用训练好的对齐器,对余下的多音节语言字母串以及对应的读音形式进行所述确定步骤。2.如权利要求1所述的方法,其中所述对于给定的多音节语言单词根据已知音节表枚举所有可能的音节划分方式包括:将构成所述多音节语言单词的单个字母或字母串与所述已知音节表中的已知音节进行匹配;将与所述已知音节匹配上的单个字母或字母串,划分为一个音节;将不能与任何所述已知音节匹配上的单个字母或字母串中的每个字母,划分为一个音节;所有互不矛盾的划分结果的组合构成所述所有可能的音节划分方式。3.如权利要求1所述的方法,其中所述已知音节的特征概率包括:反映音节在单词中的位置的可能性的位置概率、和/或反映相邻音节的置信度的相邻概率;其中所述位置概率包括:音节位于单词的首部的概率、音节位于单词的尾部的概...
【专利技术属性】
技术研发人员:李贤华,张姝,孟遥,于浩,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。