【技术实现步骤摘要】
阿拉伯语元音恢复方法、装置、设备及存储介质
本申请涉及自然语言处理
,更具体的说,是涉及一种阿拉伯语元音恢复方法、装置、设备及存储介质。
技术介绍
阿拉伯语又可以简称为阿语,阿语有28个辅音字符和8个元音字符,在其常规的书写中,除特殊情况下,一般都会省略掉文字中的元音字符信息,只保留辅音词面信息。但阿语的朗读发音中需要体现出元音的信息,且辅音与不同的元音组合形式会影响到单词的语义信息。因此,阅读者往往需要根据自己的判断在阅读时在辅音字符后添加上相应的元音信息,且将辅音连同元音的发音一起读出。由于阿拉伯语的特殊性,其元音的添加没有明确且详细的规则,相同的辅音单词添加不同的元音字符后,其词意可能会发生变化,或者同一个词在根据其在句中的格位变化,相应的词尾元音也会发生变化,因此会造成同一个辅音词在不同的句子中有多种元音恢复的形式,例如单词可能具有的带元音标注形式有等多种。由于常规的阿语文本不包含元音字符,因此在对阿语文本进行语音合成时会影响合成效果,为此需要在语音合成前对阿语文本进行前端处理,即对阿语文本进行元音信息的恢复,从而保证阿语文本合成时有完整且准确的输入信息。因此有必要提供一种阿语元音恢复方案,以保证阿语文本的语义的正确性及完整性。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种阿拉伯语元音恢复方法、装置、设备及存储介质,以保证阿语文本的语义的正确性及完整性。具体方案如下:一种阿拉伯语元音恢复方法,包括:获取待处理阿语文本;利用预训练的语言模 ...
【技术保护点】
1.一种阿拉伯语元音恢复方法,其特征在于,包括:/n获取待处理阿语文本;/n利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示,所述语言模型为基于无元音标注的阿语训练文本训练得到;/n获取所述待处理阿语文本中每一字符的文本特征;/n基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。/n
【技术特征摘要】
1.一种阿拉伯语元音恢复方法,其特征在于,包括:
获取待处理阿语文本;
利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示,所述语言模型为基于无元音标注的阿语训练文本训练得到;
获取所述待处理阿语文本中每一字符的文本特征;
基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。
2.根据权利要求1所述的方法,其特征在于,所述语言模型的训练过程,包括:
获取无元音标注的阿语训练文本;
对所述阿语训练文本中的字符进行随机遮挡,并输入语言模型;
以预测所述阿语训练文本中被遮挡的字符为目标,训练所述语言模型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述待处理阿语文本中每一字符的文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果,包括:
将所述待处理阿语文本中,每一字符的文本特征与所述字符所属单词的特征表示进行融合,得到待处理阿语文本的融合特征表示;
基于所述待处理阿语文本的融合特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。
4.根据权利要求1所述的方法,其特征在于,获取所述待处理阿语文本中每一字符的文本特征,以及基于所述文本特征,以及每一字符所属单词的特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果的过程,包括:
利用预训练的元音恢复模型处理所述待处理阿语文本及其中每一单词的特征表示,以得到元音恢复模型输出的所述待处理阿语文本中各字符对应的元音标注结果;
其中,所述元音恢复模型以带元音标注结果的阿语训练文本及所述阿语训练文本中每一单词的特征表示为训练数据,训练得到。
5.根据权利要求4所述的方法,其特征在于,利用预训练的元音恢复模型处理所述待处理阿语文本及其中每一单词的特征表示的过程,包括:
利用所述元音恢复模型的特征抽取层,获取所述待处理阿语文本中每一字符的文本特征;
利用所述元音恢复模型的特征融合层,将所述待处理阿语文本中,每一字符的文本特征与所述字符所属单词的特征表示进行融合,得到待处理阿语文本的融合特征表示;
利用所述元音恢复模型的分类层,基于所述待处理阿语文本的融合特征表示,确定所述待处理阿语文本中各字符对应的元音标注结果。
6.根据权利要求5所述的方法,其特征在于,所述利用所述元音恢复模型的特征抽取层,获取所述待处理阿语文本中每一字符的文本特征,包括:
利用所述元音恢复模型的第一特征抽取层,获取所述待处理阿语文本中每一字符的编码特征;
利用所述元音恢复模型的第二特征抽取层,获取所述待处理阿语文本中每一字符在设定长度窗口内的字符特征,由所述编码特征及所述字符特征组合为字符的文本特征。
7.根据权利要求1所述的方法,其特征在于,在所述利用预训练的语言模型确定所述待处理阿语文本中每一单词的特征表示之前,该方法还包括:
若检测到所述待处理阿语文本中包含数字符号,则将所述数字符号转换为阿语发音单词,并将转换后的阿语发音单词中除末尾字符外的其它字符标注元音。
8.根据权利要求4所述的方法,其特征在于,所述元音恢复模型的训练过程,包括:
以带元音标注结果的古典阿语训练文本,及所述古典阿语训练文...
【专利技术属性】
技术研发人员:储银雪,高丽,祖漪清,江源,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。