阿拉伯语元音恢复方法、装置、设备及存储介质制造方法及图纸

技术编号:28979777 阅读:30 留言:0更新日期:2021-06-23 09:26
本申请公开了一种阿拉伯语元音恢复方法、装置、设备及存储介质,本申请利用无元音标注的阿语训练文本训练语言模型,可以基于大批量阿语训练文本训练得到对于阿语的单词有较好的泛化表示能力的语言模型,进而对于待处理阿语文本,利用语言模型确定待处理阿语文本中每一单词的特征表示,并获取待处理阿语文本中每一字符的文本特征,基于每一字符的文本特征,及每一字符所属单词的特征表示,确定待处理阿语文本中各字符对应的元音标注结果。本申请在对进行元音恢复时,同时参考了每一字符的文本特征及其所属单词的特征表示,也即参考信息更加丰富,同时借助于语言模型对阿语单词较好的泛化表示能力,可以提高各字符所预测的元音的准确度。

【技术实现步骤摘要】
阿拉伯语元音恢复方法、装置、设备及存储介质
本申请涉及自然语言处理
,更具体的说,是涉及一种阿拉伯语元音恢复方法、装置、设备及存储介质。
技术介绍
阿拉伯语又可以简称为阿语,阿语有28个辅音字符和8个元音字符,在其常规的书写中,除特殊情况下,一般都会省略掉文字中的元音字符信息,只保留辅音词面信息。但阿语的朗读发音中需要体现出元音的信息,且辅音与不同的元音组合形式会影响到单词的语义信息。因此,阅读者往往需要根据自己的判断在阅读时在辅音字符后添加上相应的元音信息,且将辅音连同元音的发音一起读出。由于阿拉伯语的特殊性,其元音的添加没有明确且详细的规则,相同的辅音单词添加不同的元音字符后,其词意可能会发生变化,或者同一个词在根据其在句中的格位变化,相应的词尾元音也会发生变化,因此会造成同一个辅音词在不同的句子中有多种元音恢复的形式,例如单词可能具有的带元音标注形式有等多种。由于常规的阿语文本不包含元音字符,因此在对阿语文本进行语音合成时会影响合成效果,为此需要在语音合成前对阿语文本进行前端处理,即对阿语文本进行元音信息的恢复,从而保证阿语文本合成时有完整且准确的输入信息。因此有必要提供一种阿语元音恢复方案,以保证阿语文本的语义的正确性及完整性。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种阿拉伯语元音恢复方法、装置、设备及存储介质,以保证阿语文本的语义的正确性及完整性。具体方案如下:一种阿拉伯语元音恢复方法,包括:获取待处理阿语文本;利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示,所述语言模型为基于无元音标注的阿语训练文本训练得到;获取所述待处理阿语文本中每一字符的文本特征;基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。优选地,所述语言模型的训练过程,包括:获取无元音标注的阿语训练文本;对所述阿语训练文本中的字符进行随机遮挡,并输入语言模型;以预测所述阿语训练文本中被遮挡的字符为目标,训练所述语言模型。优选地,所述语言模型为基于BERT结构的掩码语言模型。优选地,所述阿语训练文本包括现代阿语训练文本和/或古典阿语训练文本。优选地,所述利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示,包括:将所述待处理阿语文本输入所述语言模型,得到语言模型输出的所述待处理阿语文本中每一单词的词向量特征。优选地,所述基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果,包括:将所述待处理阿语文本中,每一字符的文本特征与所述字符所属单词的特征表示进行融合,得到待处理阿语文本的融合特征表示;基于所述待处理阿语文本的融合特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。优选地,获取所述待处理阿语文本中每一字符的文本特征,以及基于所述文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果的过程,包括:利用预训练的元音恢复模型处理所述待处理阿语文本及其中每一单词的特征表示,以得到元音恢复模型输出的所述待处理阿语文本中各字符对应的元音标注结果;其中,所述元音恢复模型以带元音标注结果的阿语训练文本及所述阿语训练文本中每一单词的特征表示为训练数据,训练得到。优选地,利用预训练的元音恢复模型处理所述待处理阿语文本及其中每一单词的特征表示的过程,包括:利用所述元音恢复模型的特征抽取层,获取所述待处理阿语文本中每一字符的文本特征;利用所述元音恢复模型的特征融合层,将所述待处理阿语文本中,每一字符的文本特征与所述字符所属单词的特征表示进行融合,得到待处理阿语文本的融合特征表示;利用所述元音恢复模型的分类层,基于所述待处理阿语文本的融合特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。优选地,所述利用所述元音恢复模型的特征抽取层,获取所述待处理阿语文本中每一字符的文本特征,包括:利用所述元音恢复模型的第一特征抽取层,获取所述待处理阿语文本中每一字符的编码特征;利用所述元音恢复模型的第二特征抽取层,获取所述待处理阿语文本中每一字符在设定长度窗口内的字符特征,由所述编码特征及所述字符特征组合为字符的文本特征。优选地,在所述利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示之前,该方法还包括:若检测到所述待处理阿语文本中包含数字符号,则将所述数字符号转换为阿语发音单词,并将转换后的阿语发音单词中除末尾字符外的其它字符标注元音。优选地,所述元音恢复模型的训练过程,包括:以带元音标注结果的古典阿语训练文本,及所述古典阿语训练文本中每一单词的特征表示为训练数据,训练初始元音恢复模型;以带元音标注结果的现代阿语训练文本,及所述现代阿语训练文本中每一单词的特征表示为训练数据,对所述初始元音恢复模型进行微调,得到最终的元音恢复模型。优选地,所述带元音标注结果的现代阿语训练文本的获取过程,包括:获取现代阿语训练文本,所述现代阿语训练文本中除末尾字符外的其它字符标注元音;将所述现代阿语训练文本中包含的数字符号转换为阿语发音单词,并将转换后的阿语发音单词中除末尾字符外的其它字符标注元音。优选地,还包括:参考设定的元音标注规则,对确定的所述待处理阿语文本中各字符对应的元音标注结果进行校正。优选地,所述元音标注规则包括对于第一类型词的元音标注规则,和/或,对于第二类型词的元音标注规则,和/或,对于第三类型词的元音标注规则,所述第一类型词为具有固定元音标注形式的词,所述第二类型词为末尾字符决定单词格位且只有格位会变化的词,所述第三类型词为冠词和名词组合成的词;所述参考设定的元音标注规则,对确定的所述待处理阿语文本中各字符对应的元音标注结果进行校正,包括:检测所述待处理阿语文本中是否包含第一类型词,若是,则利用配置的与所述第一类型词中各字符对应的元音标注结果,替换掉所述待处理阿语文本的元音标注结果中所述第一类型词的各字符的元音标注结果;和/或,检测所述待处理阿语文本中是否包含第二类型词,若是,则利用配置的与所述第二类型词中除末尾字符外的其它各字符的元音标注结果,替换掉所述待处理阿语文本的元音标注结果中所述第二类型词中对应字符的元音标注结果;和/或,检测所述待处理阿语文本中是否包含由冠词和名词组合成的组合词,若是,对于所述名词,参考对于第一类型词及第二类型词的元音标注规则进行处理,对于所述冠词,确定所述冠词所在的组合词处于句子中间还是句首位置;若处于句子中间位置,则利用配置的第一冠词的元音标注形式替换掉所述待处理阿语文本中所述冠词对应字符的元音标注结果;若处于句首位置,则利用配置的第二冠本文档来自技高网...

【技术保护点】
1.一种阿拉伯语元音恢复方法,其特征在于,包括:/n获取待处理阿语文本;/n利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示,所述语言模型为基于无元音标注的阿语训练文本训练得到;/n获取所述待处理阿语文本中每一字符的文本特征;/n基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。/n

【技术特征摘要】
1.一种阿拉伯语元音恢复方法,其特征在于,包括:
获取待处理阿语文本;
利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示,所述语言模型为基于无元音标注的阿语训练文本训练得到;
获取所述待处理阿语文本中每一字符的文本特征;
基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。


2.根据权利要求1所述的方法,其特征在于,所述语言模型的训练过程,包括:
获取无元音标注的阿语训练文本;
对所述阿语训练文本中的字符进行随机遮挡,并输入语言模型;
以预测所述阿语训练文本中被遮挡的字符为目标,训练所述语言模型。


3.根据权利要求1所述的方法,其特征在于,所述基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果,包括:
将所述待处理阿语文本中,每一字符的文本特征与所述字符所属单词的特征表示进行融合,得到待处理阿语文本的融合特征表示;
基于所述待处理阿语文本的融合特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。


4.根据权利要求1所述的方法,其特征在于,获取所述待处理阿语文本中每一字符的文本特征,以及基于所述文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果的过程,包括:
利用预训练的元音恢复模型处理所述待处理阿语文本及其中每一单词的特征表示,以得到元音恢复模型输出的所述待处理阿语文本中各字符对应的元音标注结果;
其中,所述元音恢复模型以带元音标注结果的阿语训练文本及所述阿语训练文本中每一单词的特征表示为训练数据,训练得到。


5.根据权利要求4所述的方法,其特征在于,利用预训练的元音恢复模型处理所述待处理阿语文本及其中每一单词的特征表示的过程,包括:
利用所述元音恢复模型的特征抽取层,获取所述待处理阿语文本中每一字符的文本特征;
利用所述元音恢复模型的特征融合层,将所述待处理阿语文本中,每一字符的文本特征与所述字符所属单词的特征表示进行融合,得到待处理阿语文本的融合特征表示;
利用所述元音恢复模型的分类层,基于所述待处理阿语文本的融合特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。


6.根据权利要求5所述的方法,其特征在于,所述利用所述元音恢复模型的特征抽取层,获取所述待处理阿语文本中每一字符的文本特征,包括:
利用所述元音恢复模型的第一特征抽取层,获取所述待处理阿语文本中每一字符的编码特征;
利用所述元音恢复模型的第二特征抽取层,获取所述待处理阿语文本中每一字符在设定长度窗口内的字符特征,由所述编码特征及所述字符特征组合为字符的文本特征。


7.根据权利要求1所述的方法,其特征在于,在所述利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示之前,该方法还包括:
若检测到所述待处理阿语文本中包含数字符号,则将所述数字符号转换为阿语发音单词,并将转换后的阿语发音单词中除末尾字符外的其它字符标注元音。


8.根据权利要求4所述的方法,其特征在于,所述元音恢复模型的训练过程,包括:
以带元音标注结果的古典阿语训练文本,及所述古典阿语训练文...

【专利技术属性】
技术研发人员:储银雪高丽祖漪清江源
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1