一种基于音素记忆的音译方法、电子设备及存储介质技术

技术编号:36511777 阅读:28 留言:0更新日期:2023-02-01 15:40
本发明专利技术公开了一种基于音素记忆的音译方法、电子设备及存储介质,包括:1、抽取音译单词并拆分为字母,2、构建音素库,并提取与每个字母关联的音素特征;3、构建L层的编码器,对字母编码,得到每一层与每个字母对应的字母编码向量;4、建立L层的音素记忆网络,用于字母编码向量和音素特征的建模,得到字母编码矩阵;5、将字母编码矩阵和前t时刻分类器输出的目标字母一起输入L层的解码器中,并将得到的t时刻解码器输出的字母预测向量送入分类器,得到t时刻预测的目标字母;6、把t+1赋予t,重复执行步骤5,直至时刻T,从而得到预测的字母序列。本发明专利技术旨在将音素特征融合进标准的文本生成过程中,从而能提高音译的质量和效果。从而能提高音译的质量和效果。从而能提高音译的质量和效果。

【技术实现步骤摘要】
一种基于音素记忆的音译方法、电子设备及存储介质


[0001]本专利技术属于自然语言处理领域,具体的说是一种基于音素记忆的音译方法、电子设备及存储介质。

技术介绍

[0002]音译指的是把源语言中的人物姓名,例如Smith,翻译为目标语言,例如中文,的文本例如史密斯),而不改变源语言中姓名的发音。例如,把源语言英语中的人名“Smith”音译为中文的“史密斯”。
[0003]现有的方法大都把这个任务视为序列到序列的生成任务,并采用高级的编码器和解码器生成目标语言的姓名音译,并且缺乏对源语言和目标语言中语音特征,特别是音素特征,的利用从而导致音译生成的词失去了源语言的发音特征,导致音译的准确性降低。

技术实现思路

[0004]本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于音素记忆的音译方法、电子设备及存储介质,以期能将音素特征融合进标准的文本生成过程,从而能够提高音译的质量和效果。
[0005]本专利技术为达到上述专利技术目的,采用如下技术方案:本专利技术一种基于音素记忆的音译方法的特点在于,是按如下步骤进行:步骤1、从源语言语料库中抽取若干个音译的单词,并将每个单词拆分为字母;其中,第i个单词X
i
拆分后的字母序列记为{x
i,1
,

x
i,j
,

,},x
i,j
表示第i个单词X
i
中的第j个字母,n
i
表示第i个单词X
i
中字母的总数;步骤2、从音素库中选取与第j个字母x
i,j
关联的m个音素特征,并构成音素特征集合S
i,j
={s
i,j,1

s
i,j,u
,

s
i,j,m
},其中,s
i,j,u
为与第j个字母x
i,j
关联的第u个音素特征,m为关联的音素特征的总数;步骤3、构建音译网络,包括:L层的编码器、L层的音素记忆网络、L层的解码器和分类器;步骤3.1、编码器的处理:将第j个字母x
i,j
转换为第j个字母向量后输入所述编码器中,并依次经过L层的多头自注意力层的处理后,由L层分别得到L个字母编码向量{|l=1,2,

,L};其中,表示第l层的多头自注意力层输出的第j个字母编码向量;步骤3.2、音素记忆网络的处理:将音素特征集合S
i,j
转换为音素向量集合{|u=1,2,

,m}后,与{|l=1,2,

,L}一起输入所述音素记忆网络中进行处理,得到增强后的n
i
个字母编码向量{|l=1,2,

,L;j=1,2,

,n
i
},并记为第i个单词X
i
的字母编码矩阵H
i
;其中,表示第u个音
素s
i,j,u
的音素向量;表示增强后的第j个字母编码向量;步骤3.3、解码器的处理:将字母编码矩阵H
i
和前t时刻分类器输出的目标字母一起输入L层的解码器中,并得到t时刻解码器输出的字母预测向量h
i,t
;当t=1时,令前t时刻分类器输出的字母为空;步骤3.4、分类器的处理:所述分类器利用全连接层对t时刻解码器输出的字母预测向量h
i,t
进行处理,得到当前t时刻对第i个单词X
i
预测的目标字母y
i,t
;步骤3.5、将t+1赋值给t后,返回步骤3.3顺序执行,直至T时刻为止,从而得到第i个单词X
i
的预测字母序列{y
i,1
,

, y
i,t
,

, y
i,T
}。
[0006]本专利技术一种基于音素记忆的音译方法的特点也在于,所述步骤2包括:步骤2.1、使用式(1)计算第j个字母x
i,j
与音素库中第q个音素特征s
q
的逐点互信息PMI(x
i,j
,s
q
),从而得到第j个字母x
i,j
与所有M个音素特征的逐点互信息{PMI(x
i,j
,s
q
)|1<=q<=M };M表示音素库中所有音素特征的个数; (1)式(1)中,p(x
i,j
,s
q
)表示第j个字母x
i,j
与第q个音素特征s
q
共同出现的概率;p(x
i,j
)表示第j个字母x
i,j
出现在第i个单词X
i
中的概率;p(s
q
)表示第q个音素特征s
q
出现在第i个单词X
i
的发音中的概率;步骤2.2、从逐点互信息{PMI(x
i,j
,s
q
)|1<=q<=M }中选出m个最高逐点互信息所对应的音素特征,并构成音素特征集合S
i,j
={s
i,j,1

s
i,j,u
,

s
i,j,m
}。
[0007]所述步骤3.2包括:步骤3.2.1、将第u个音素s
i,j,u
转换为第u个音素向量后,与一起输入第l层的音素记忆网络中,所述第l层音素记忆网络利用式(2)和式(3)对进行映射后,得到第l层的第u个音素键向量和第l层的第u个音素值向量:(2)(3)式(1)和式(2)中,表示第l层的键矩阵,表示第l层的值矩阵;ReLU表示激活函数;“·”表示矩阵和向量的乘法;步骤3.2.2、 所述第l层的音素记忆网络利用式(4)计算第l层的第u个音素权重: (4)式(3)中,“·”表示向量内积;步骤3.2.3,所述第l层的音素记忆网络利用式(5)计算加权平均向量:

(5)步骤3.2.4、所述第l层的音素记忆网络利用式(6)得到第l层第j个字母重置向量:(6)式(5)中,sigmoid表示激活函数,和分别表示第l层的第一重置矩阵和第二重置矩阵,表示第l层的重置偏移向量;步骤3.2.5、所述第l层的音素记忆网络利用式(7)得到第l层增强后的第j个字母编码向量,从而由L层的音素记忆网络输出增强后的第j个字母编码向量{|l=1,2,

,L},进而得到增强后的n
i
个字母编码向量{|l=1,2,

,L, j=1,2,

,n
i },并记为第i个单词X
i
的字母编码矩阵H
i
;(7)式(7)中,表示哈达玛积,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音素记忆的音译方法,其特征在于,是按如下步骤进行:步骤1、从源语言语料库中抽取若干个音译的单词,并将每个单词拆分为字母;其中,第i个单词X
i
拆分后的字母序列记为{x
i,1
,

x
i,j
,

,},x
i,j
表示第i个单词X
i
中的第j个字母,n
i
表示第i个单词X
i
中字母的总数;步骤2、从音素库中选取与第j个字母x
i,j
关联的m个音素特征,并构成音素特征集合S
i,j
={s
i,j,1

s
i,j,u
,

s
i,j,m
},其中,s
i,j,u
为与第j个字母x
i,j
关联的第u个音素特征,m为关联的音素特征的总数;步骤3、构建音译网络,包括:L层的编码器、L层的音素记忆网络、L层的解码器和分类器;步骤3.1、编码器的处理:将第j个字母x
i,j
转换为第j个字母向量后输入所述编码器中,并依次经过L层的多头自注意力层的处理后,由L层分别得到L个字母编码向量{|l=1,2,

,L};其中,表示第l层的多头自注意力层输出的第j个字母编码向量;步骤3.2、音素记忆网络的处理:将音素特征集合S
i,j
转换为音素向量集合{|u=1,2,

,m}后,与{|l=1,2,

,L}一起输入所述音素记忆网络中进行处理,得到增强后的n
i
个字母编码向量{|l=1,2,

,L;j=1,2,

,n
i
},并记为第i个单词X
i
的字母编码矩阵H
i
;其中,表示第u个音素s
i,j,u
的音素向量;表示增强后的第j个字母编码向量;步骤3.3、解码器的处理:将字母编码矩阵H
i
和前t时刻分类器输出的目标字母一起输入L层的解码器中,并得到t时刻解码器输出的字母预测向量h
i,t
;当t=1时,令前t时刻分类器输出的字母为空;步骤3.4、分类器的处理:所述分类器利用全连接层对t时刻解码器输出的字母预测向量h
i,t
进行处理,得到当前t时刻对第i个单词X
i
预测的目标字母y
i,t
;步骤3.5、将t+1赋值给t后,返回步骤3.3顺序执行,直至T时刻为止,从而得到第i个单词X
i
的预测字母序列{y
i,1
,

, y
i,t
,

, y
i,T
}。2.根据权利要求1所述的基于音素记忆的音译方法,其特征在于,所述步骤2包括:步骤2.1、使用式(1)计算第j个字母x
i,j
与音素库中第q个音素特征s
q
的逐点互信息PMI(x
...

【专利技术属性】
技术研发人员:宋彦田元贺
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1