一种基于自注意力机制的标点符号预测方法技术

技术编号：20745580 阅读：27 留言：0更新日期：2019-04-03 10:27

本发明专利技术提供一种基于自注意力机制的标点符号预测方法，包括以下步骤：基于自动语音识别技术进行语音识别，得到无标点符号文本；对无标点符号文本进行处理，得到文本序列；构建标点符号预测模型，将文本序列导入模型中，完成文本序列的标点符号预测。本发明专利技术提供的一种基于自注意力机制的标点符号预测方法，通过构建标点符号预测模型，实现了对语音识别文本的标点符号预测，有效缓解了梯度消失的问题，加强了特征传递，有效建立文本长期依赖的关系；同时，相比之前的模型无需额外的参数，有效减少了传递的数据量，降低参数的训练难度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自注意力机制的标点符号预测方法
本专利技术涉及自然语言处理领域，更具体的，涉及一种基于自注意力机制的标点符号预测方法。
技术介绍
随着深度学习的发展，近年来，许多学者提出使用神经网络来做标点符号预测，一般神经网络模型包括两个步骤：第一步是使用循环神经网络、卷积神经网络、注意力机制来产生具有上下文信息的文本表达；第二步是根据第一步生成的富含上下文信息的表达，在对每个词进行标点符号预测时，使用归一化指数函数或者条件随机场算出每个词后逗号、句号、问号、无标点符号的得分，从这四个得分中选择得分最高的类作为这个词的标记，从而得到一个合理的标点符号序列。其中，卷积神经网络在应用中难以捕捉到每个词的语义信息以及位置信息，而循环神经网络在训练的过程中容易产生梯度消失、长期依赖和过拟合的问题，提升了模型的训练难度。而在使用传统的注意力机制时，不能学习到文本序列的不同表示子空间的信息。
技术实现思路
本专利技术为克服上述现有技术在预测文本标点符号时存在容易产生梯度消失、长期依赖和过拟合且计算量过大的技术问题，提供一种基于自注意力机制的标点符号预测方法。为解决上述技术问题，本专利技术的技术方案如下：一种基于自注意力机制的标点符号预测方法，包括以下步骤：S1：基于自动语音识别技术进行语音识别，得到无标点符号文本；S2：对无标点符号文本进行处理，得到文本序列；S3：构建标点符号预测模型，将文本序列导入模型中，完成文本序列的标点符号预测。其中，在步骤S3中，所述标点符号预测模型包括字符嵌入层、词嵌入层、上下文信息嵌入层、自注意力层和输出层；其中：所述字符嵌入层对每个单词中的字符序...

【技术保护点】
1.一种基于自注意力机制的标点符号预测方法，其特征在于，包括以下步骤：S1：基于自动语音识别技术进行语音识别，得到无标点符号文本；S2：对无标点符号文本进行处理，得到文本序列；S3：构建标点符号预测模型，将文本序列导入模型中，完成文本序列的标点符号预测。

【技术特征摘要】
1.一种基于自注意力机制的标点符号预测方法，其特征在于，包括以下步骤：S1：基于自动语音识别技术进行语音识别，得到无标点符号文本；S2：对无标点符号文本进行处理，得到文本序列；S3：构建标点符号预测模型，将文本序列导入模型中，完成文本序列的标点符号预测。2.根据权利要求1所述的一种基于自注意力机制的标点符号预测方法，其特征在于：在步骤S3中，所述标点符号预测模型包括字符嵌入层、词嵌入层、上下文信息嵌入层、自注意力层和输出层；其中：所述字符嵌入层对每个单词中的字符序列做一维卷积，对卷积的结果做最大池化，即可得到对应单词的字符级向量；所述词嵌入层通过预训练的GloVe词向量将每个词映射为一个词级的高维向量；词向量结合对应的字符级向量形成一个既有词级信息又有字符级信息的向量；所述上下文信息嵌入层通过3层稠密连接的双向长短期记忆网络获得序列的信息表达；所述自注意力层计算每一个词对序列中其他词的注意力，对序列中的每一个词分配不同的权重，从而得到一个具有权重信息的向量序列；所述输出层通过归一化指数函数对具有权重信息的向量序列进行处理，完成对每个词的标点符号预测，并输出预测结果。3.根据权利要求2所述的一种基于自注意力机制的标点符号预测方法，其特征在于：在上下文信息嵌入层中，所述3层稠密连接的双向长短期记忆网络分别为第一层双向长短期记忆网络、第二层双向长短期记忆...

【专利技术属性】
技术研发人员：邓豪，权小军，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人