当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于自注意力机制的标点符号预测方法技术

技术编号:20745580 阅读:27 留言:0更新日期:2019-04-03 10:27
本发明专利技术提供一种基于自注意力机制的标点符号预测方法,包括以下步骤:基于自动语音识别技术进行语音识别,得到无标点符号文本;对无标点符号文本进行处理,得到文本序列;构建标点符号预测模型,将文本序列导入模型中,完成文本序列的标点符号预测。本发明专利技术提供的一种基于自注意力机制的标点符号预测方法,通过构建标点符号预测模型,实现了对语音识别文本的标点符号预测,有效缓解了梯度消失的问题,加强了特征传递,有效建立文本长期依赖的关系;同时,相比之前的模型无需额外的参数,有效减少了传递的数据量,降低参数的训练难度。

【技术实现步骤摘要】
一种基于自注意力机制的标点符号预测方法
本专利技术涉及自然语言处理领域,更具体的,涉及一种基于自注意力机制的标点符号预测方法。
技术介绍
随着深度学习的发展,近年来,许多学者提出使用神经网络来做标点符号预测,一般神经网络模型包括两个步骤:第一步是使用循环神经网络、卷积神经网络、注意力机制来产生具有上下文信息的文本表达;第二步是根据第一步生成的富含上下文信息的表达,在对每个词进行标点符号预测时,使用归一化指数函数或者条件随机场算出每个词后逗号、句号、问号、无标点符号的得分,从这四个得分中选择得分最高的类作为这个词的标记,从而得到一个合理的标点符号序列。其中,卷积神经网络在应用中难以捕捉到每个词的语义信息以及位置信息,而循环神经网络在训练的过程中容易产生梯度消失、长期依赖和过拟合的问题,提升了模型的训练难度。而在使用传统的注意力机制时,不能学习到文本序列的不同表示子空间的信息。
技术实现思路
本专利技术为克服上述现有技术在预测文本标点符号时存在容易产生梯度消失、长期依赖和过拟合且计算量过大的技术问题,提供一种基于自注意力机制的标点符号预测方法。为解决上述技术问题,本专利技术的技术方案如下:一种基于自注意力机制的标点符号预测方法,包括以下步骤:S1:基于自动语音识别技术进行语音识别,得到无标点符号文本;S2:对无标点符号文本进行处理,得到文本序列;S3:构建标点符号预测模型,将文本序列导入模型中,完成文本序列的标点符号预测。其中,在步骤S3中,所述标点符号预测模型包括字符嵌入层、词嵌入层、上下文信息嵌入层、自注意力层和输出层;其中:所述字符嵌入层对每个单词中的字符序列做一维卷积,对卷积的结果做最大池化,即可得到对应单词的字符级向量;所述词嵌入层通过预训练的GloVe词向量将每个词映射为一个词级的高维向量;词向量结合对应的字符级向量形成一个既有词级信息又有字符级信息的向量;所述上下文信息嵌入层通过3层稠密连接的双向长短期记忆网络获得序列的信息表达;所述自注意力层计算每一个词对序列中其他词的注意力,对序列中的每一个词分配不同的权重,从而得到一个具有权重信息的向量序列;所述输出层通过归一化指数函数对具有权重信息的向量序列进行处理,完成对每个词的标点符号预测,并输出预测结果。其中,在上下文信息嵌入层中,所述3层稠密连接的双向长短期记忆网络分别为第一层双向长短期记忆网络、第二层双向长短期记忆网络和第三层双向长短期记忆网络;其中,第一层双向长短期记忆网络输入端接收所述词嵌入层输出的向量信息;第二层双向长短期记忆网络输入端接收所述词嵌入层输出的向量信息的同时,接收第一层双向长短期记忆网络的输出信息;第三层双向长短期记忆网络输入端接收所述词嵌入层输出的向量信息的同时,还同时接收第一层双向长短期记忆网络、第二层双向长短期记忆网络的输出信息;第三层双向长短期记忆网络输出序列的信息表达传送至所述自注意力层。其中,所述自注意力层为多头自注意力机制,具体包括以下步骤:设头的个数为h,序列单词个数为n,序列维数为d,上下文信息嵌入层的输出序列为Q、K、V,其中Q=K=V,Q∈Rn×d,K∈Rn×d,V∈Rn×d;Q、K、V经过线性变换后对d维进行分割,每个头内Q、K、V注意力计算公式为:每个头的输入Mi为:Mi=Attention(QWiQ,KWiK,VWiV);其中,WiQ∈Rn×d/h,WiK∈Rn×d/h,WiV∈Rn×d/h;得到每个头的Attention后,将h个头的Attention结果进行拼接,得到拼接结果M,即:M=Concat(M1,...,Mh);其中,M∈Rn×d,对拼接结果做线性变化,有:Y=MW;其中,W为自定义的参数矩阵,W∈Rd×4,Y为线性变换后的结果。上述方案中,利用3层稠密连接的双向长短期记忆网络,每一层双向长短期记忆网络的输出都被传递到最后一层双向长短期记忆网络,从而缓解了梯度消失得问题;且每一层双向长短期记忆网络都可以获取原始的输入序列,故其需要的参数少,容易获得更好的效果。上述方案中,使用多头自注意力机制,仅需序列对自身做Attention计算即可,同时可以学习到不同表示子空间的信息,捕获长距离依赖关系。在长距离依赖上,由于自注意力机制是每个词和所有词都要进行Attention计算,故词间最大的路径长都是1。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术提供的一种基于自注意力机制的标点符号预测方法,通过构建标点符号预测模型,实现了对语音识别文本的标点符号预测,有效缓解了梯度消失的问题,加强了特征传递,有效建立文本长期依赖的关系;同时,相比之前的模型无需额外的参数,有效减少了传递的数据量,降低参数的训练难度。附图说明图1为本专利技术方法流程图;图2为稠密连接的双向长短期记忆网络结构示意图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1如图1所示,一种基于自注意力机制的标点符号预测方法,包括以下步骤:S1:基于自动语音识别技术进行语音识别,得到无标点符号文本;S2:对无标点符号文本进行排序处理,得到文本序列;S3:构建标点符号预测模型,将文本序列导入模型中,完成文本序列的标点符号预测。在具体实施过程中,模型输入的文本序列为X1,X2,...,XT,代表T个单词,输出序列为Y1,Y2,...,Yt,为每个单词做标记;其中,Yt=0代表这个词后面无标点符号,Yt=1代表这个词后面是逗号,Yt=2代表这个词后面是句号,Yt=3代表这个词后面是问号。更具体的,在步骤S3中,所述标点符号预测模型包括字符嵌入层、词嵌入层、上下文信息嵌入层、自注意力层和输出层;其中:所述字符嵌入层对每个单词中的字符序列做一维卷积,对卷积的结果做最大池化,即可得到对应单词的字符级向量;所述词嵌入层通过预训练的GloVe词向量将每个词映射为一个词级的高维向量;词向量结合对应的字符级向量形成一个既有词级信息又有字符级信息的向量;所述上下文信息嵌入层通过3层稠密连接的双向长短期记忆网络获得序列的信息表达;所述自注意力层计算每一个词对序列中其他词的注意力,对序列中的每一个词分配不同的权重,从而得到一个具有权重信息的向量序列;所述输出层通过归一化指数函数对具有权重信息的向量序列进行处理,完成对每个词的标点符号预测,并输出预测结果。更具体的,如图2所示,在上下文信息嵌入层中,所述3层稠密连接的双向长短期记忆网络分别为第一层双向长短期记忆网络、第二层双向长短期记忆网络和第三层双向长短期记忆网络;其中,第一层双向长短期记忆网络输入端接收所述词嵌入层输出的向量信息;第二层双向长短期记忆网络输入端接收所述词嵌入层输出的向量信息的同时,接收第一层双向长短期记忆网络的输出信息;第三层双向长短期记忆网络输入端接收所述词嵌入层输出的向量信息的同时,还同时接收第一层双向长短期记忆网络、第二层双向长短期记忆网络的输出信息;第三层双向长短期记忆网络输出序列的信息表达传送至所述自注意力层。更具体的,所述自注意力层为多头自注意力机制,具体包括以本文档来自技高网...

【技术保护点】
1.一种基于自注意力机制的标点符号预测方法,其特征在于,包括以下步骤:S1:基于自动语音识别技术进行语音识别,得到无标点符号文本;S2:对无标点符号文本进行处理,得到文本序列;S3:构建标点符号预测模型,将文本序列导入模型中,完成文本序列的标点符号预测。

【技术特征摘要】
1.一种基于自注意力机制的标点符号预测方法,其特征在于,包括以下步骤:S1:基于自动语音识别技术进行语音识别,得到无标点符号文本;S2:对无标点符号文本进行处理,得到文本序列;S3:构建标点符号预测模型,将文本序列导入模型中,完成文本序列的标点符号预测。2.根据权利要求1所述的一种基于自注意力机制的标点符号预测方法,其特征在于:在步骤S3中,所述标点符号预测模型包括字符嵌入层、词嵌入层、上下文信息嵌入层、自注意力层和输出层;其中:所述字符嵌入层对每个单词中的字符序列做一维卷积,对卷积的结果做最大池化,即可得到对应单词的字符级向量;所述词嵌入层通过预训练的GloVe词向量将每个词映射为一个词级的高维向量;词向量结合对应的字符级向量形成一个既有词级信息又有字符级信息的向量;所述上下文信息嵌入层通过3层稠密连接的双向长短期记忆网络获得序列的信息表达;所述自注意力层计算每一个词对序列中其他词的注意力,对序列中的每一个词分配不同的权重,从而得到一个具有权重信息的向量序列;所述输出层通过归一化指数函数对具有权重信息的向量序列进行处理,完成对每个词的标点符号预测,并输出预测结果。3.根据权利要求2所述的一种基于自注意力机制的标点符号预测方法,其特征在于:在上下文信息嵌入层中,所述3层稠密连接的双向长短期记忆网络分别为第一层双向长短期记忆网络、第二层双向长短期记忆...

【专利技术属性】
技术研发人员:邓豪权小军
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1