基于意群标注的英语发音连读标记模型制造技术

技术编号:26971330 阅读:17 留言:0更新日期:2021-01-06 00:02
本发明专利技术涉及英语发音标注模型技术领域,尤其是一种基于意群标注的英语发音连读标记模型,包括文本预处理、意群标注模型以及连读标注模块,所述的文本预处理为将输入的文本进行分句与分词预处理,将预处理后的文本输入意群标注模型,意群标注模型输出意群信息与文本至连读标注模块进行连读分析,连读标注模块完成连读标注后输出标记结果,本发明专利技术能够高效地并行运算。

【技术实现步骤摘要】
基于意群标注的英语发音连读标记模型
本专利技术涉及英语发音标注模型
,具体领域为一种基于意群标注的英语发音连读标记模型。
技术介绍
单词间的连读、变音是英语口语中的一种常见现象。口语学习中,在文本上显式地标出需要连读变音的位置能够帮助学生更好地掌握地道的发音,并且可以提高学生对于连读的听力理解能力。因此,连读、变音的标注对于英语口语的学习具有促进作用。常见的连读、变音包括:失去爆破音、相同或相似音的失去、轻辅音[h]连读、连读发生音变成为复合辅音等。以上连读与变音应当发生在语义紧密的词之间,也就是同一个意群内,不同的意群间的连读显得不自然,如Isitahatoracat中ora间的连读。因此语句中意群的划分是标注连读发音的前提。常规的序列标注模型,如条件随机场(CRF)、循环神经网络RNN以及变体如GRU、LSTM等被成功地运用于意群的标注。然而常规的循环神经网络序列标注模型,在计算t时刻时需要依赖t-1时刻的运算结果,也就是需要依次计算,这样的按序列依次运算的方式不利于并行化计算。基于Self-attention的Transformer结构虽然可以并行化,但却需要序列长度平方级的计算与空间复杂度。
技术实现思路
针对现有技术存在的不足,本专利技术的目的在于提供一种基于意群标注的英语发音连读标记模型。为实现上述目的,本专利技术提供如下技术方案:一种基于意群标注的英语发音连读标记模型,包括文本预处理、意群标注模型以及连读标注模块,所述的文本预处理为将输入的文本进行分句与分词预处理,将预处理后的文本输入意群标注模型,意群标注模型输出意群信息与文本至连读标注模块进行连读分析,连读标注模块完成连读标注后输出标记结果,所述的意群标注模型包括字母级别的卷积神经网络编码器、词嵌入层、序列标注模型和CRF层,预处理后的文本通过卷积神经网络编码器进行每个词字母编码后与该词的词向量拼接后输入到序列标注模型进行运算处理,并将运算结果输入到CRF层中解码得到意群标注序列,所述的连读标注模块以句子与意群信息作为输入,根据连读规则在意群内标注连读与变音。优选的,所述的意群标注模型还包括词嵌入层,字母级别的卷积神经网络编码器和词嵌入层分别对预处理后的文本进行计算处理,并将两者的计算结果拼接后进行一次线性变化后输入序列标注模块。优选的,字母级别的卷积神经网络编码器对输入的文本单词以字母序列的形式输入到字母嵌入层,对字母嵌入表示进行卷积运算,运算的结果做最大池化后输出。优选的,所述的序列标注模型由分组卷积神经网络与Position-WiseFeed-ForwardNetworks两个子结构构成,分组卷积神经网络与Position-WiseFeed-ForwardNetworks两个子结构间以残差连接并插入Layer-Normalization。优选的,所述的分组卷积神经网络由两层分组卷积层构成,两层间使用的激活函数为ReLU,设定第一层分组卷积层的分组数G等于输入通道数C1,中间通道数C2为4C1,输出通道数为C1,即,输入输入到第一层分组卷积层,其中L为序列长度,dmodel为模型隐状态大小,y=max(GroupedConv(x,K1,C1,C2,G),0)其中C1=G=dmodel,K1为卷积核的大小。第二层分组卷积层的输入通道数为C2,输出通道数为C1,卷积核大小为K2,分组数G;z=GroupedConv(y,K2,C2,C1,G)其中优选的,Position-WiseFeed-ForwardNetworks的计算公式为:FFN(x)=max(0,xW1+b1)W2+b2其中优选的,定义CRF层的目标函数为其中A为标签转移矩阵,Ai,j表示标签i转移到标签j的分数,θ为模型中所有的参数,输入的句子x,句子长度为T,[fθ]i,t表示神经网络在t个词输出标签i的分数;令是句子x的真实标签序列,需要优化的目标函数为:在推理时,采用Viterbi算法求解最大化的标签序列优选的,所述的连读标注模块设定规则为:a.失去爆破音,当前一词以爆破音[p]、[b]、[t]、[d]、[k]、[g]结尾,后一词以辅音开头,则爆破音失爆;b.相同或相似音的失去,相同或相似的两个音素以及发音部位相同的音素相邻时,前一个音素不读出声;c.轻辅音[h]的连读,如果前一个单词以辅音音素结尾,后一个单词的读音以轻辅音音素[h]开头,语速较快时,直接穿透[h]与后面的元音音素发生连读,即辅音[h]不发音;d.连读发生音变成为复合辅音;e.词末连接音[r]+元音,单词末尾的r或re,在英式读音中,不发音;在美式读音中,发[r],在连贯话语中,如果后面紧跟一个以元音开头的词,而且两个词属于同一个意群时,发生连读,英音中原本不发音的r或re,此时发[r]音;f.前一个词是以辅音结尾,后一个词是以/w/或/j/,应当连读。优选的,输入文本经过字母级别编码后与相应的词嵌入表示拼接,输入到序列标注层,经过N次计算后输出,再经过一次线性变化后投影到标签空间中作为CRF层的发射分数,结合CRF层的转移分数解码出最优的标签序列。与现有技术相比,本专利技术的有益效果是:采用了一种基于分组卷积神经网络与Position-WiseFeed-ForwardNetworks作为基本建模单元的模型结构。该结构在意群标注任务上不止性能优秀,并且能够高效地并行运算。本专利技术的另一个关键技术点是基于意群标注模型的连读标记,即先利用序列标注模型对输入文本的意群划分进行预测,然后在意群内进行连读标记。附图说明图1为本专利技术的整体流程图;图2为本专利技术的意群标注模型结构;图3为本专利技术的分组卷积神经网络;图4为本专利技术的字母级编码器结构。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种基于意群标注的英语发音连读标记模型,包括文本预处理、意群标注模型以及连读标注模块,所述的文本预处理为将输入的文本进行分句与分词预处理,将预处理后的文本输入意群标注模型,意群标注模型输出意群信息与文本至连读标注模块进行连读分析,连读标注模块完成连读标注后输出标记结果,所述的意群标注模型包括字母级别的卷积神经网络编码器、序列标注模型和CRF层,预处理后的文本通过卷积神经网络编码器进行每个词字母编码后与该词的词向量拼接后输入到序列标注模型进行运算处理,并将运算结果输入到CRF层中解码得到意群标注序列,所述的连读标注模块以句子与意群信息作为输入,根据连读规则在意群内标注连本文档来自技高网...

【技术保护点】
1.一种基于意群标注的英语发音连读标记模型,其特征在于:包括文本预处理、意群标注模型以及连读标注模块,所述的文本预处理为将输入的文本进行分句与分词预处理,将预处理后的文本输入意群标注模型,意群标注模型输出意群信息与文本至连读标注模块进行连读分析,连读标注模块完成连读标注后输出标记结果,/n所述的意群标注模型包括字母级别的卷积神经网络编码器、词嵌入层、序列标注模型和条件随机场层(CRF层),预处理后的文本通过卷积神经网络编码器进行每个词字母编码后与该词的词向量拼接后输入到序列标注模型进行运算处理,并将运算结果输入到条件随机场层中解码得到意群标注序列,/n所述的连读标注模块以句子与意群信息作为输入,根据连读规则在意群内标注连读与变音。/n

【技术特征摘要】
1.一种基于意群标注的英语发音连读标记模型,其特征在于:包括文本预处理、意群标注模型以及连读标注模块,所述的文本预处理为将输入的文本进行分句与分词预处理,将预处理后的文本输入意群标注模型,意群标注模型输出意群信息与文本至连读标注模块进行连读分析,连读标注模块完成连读标注后输出标记结果,
所述的意群标注模型包括字母级别的卷积神经网络编码器、词嵌入层、序列标注模型和条件随机场层(CRF层),预处理后的文本通过卷积神经网络编码器进行每个词字母编码后与该词的词向量拼接后输入到序列标注模型进行运算处理,并将运算结果输入到条件随机场层中解码得到意群标注序列,
所述的连读标注模块以句子与意群信息作为输入,根据连读规则在意群内标注连读与变音。


2.根据权利要求1所述的基于意群标注的英语发音连读标记模型,其特征在于:所述的意群标注模型还包括词嵌入层,字母级别的卷积神经网络编码器和词嵌入层分别对预处理后的文本进行计算处理,并将两者的计算结果拼接后进行一次线性变化后输入序列标注模块。


3.根据权利要求2所述的基于意群标注的英语发音连读标记模型,其特征在于:字母级别的卷积神经网络编码器对输入的文本单词以字母序列的形式输入到字母嵌入层,对字母嵌入表示进行卷积运算,运算的结果做最大池化后输出。


4.根据权利要求2所述的基于意群标注的英语发音连读标记模型,其特征在于:所述的序列标注模型由分组卷积神经网络与Position-WiseFeed-ForwardNetworks两个子结构构成,分组卷积神经网络与Position-WiseFeed-ForwardNetworks两个子结构间以残差连接并插入Layer-Normalization。


5.根据权利要求4所述的基于意群标注的英语发音连读标记模型,其特征在于:所述的分组卷积神经网络由两层分组卷积层构成,两层卷积层间插入ReLU作为激活函数,
设定第一层分组卷积层的分组数G等于输入通道数C1,中间通道数C2为4C1,输出通道数为C1,即,
输入输入到第一层分组卷积层,其中L为序列长度,dmodel为模型隐状态大小,
y=max(GroupedConv(x,K1,C1,C2,G),0)
其中C1=G=dmodel,K1为卷积核的...

【专利技术属性】
技术研发人员:徐书尧秦龙陈进陆勇毅
申请(专利权)人:北京先声智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1