标点符号确定模型及确定方法技术

技术编号：30697658 阅读：17 留言：0更新日期：2021-11-06 09:33

本申请实施例提供了一种标点符号确定模型及确定方法，所述模型包括：嵌入查找层，配置为将输入文本中的每个字符转换为字符嵌入向量；深度学习层，包括线性变化单元与遗忘门单元，遗忘门单元配置为，根据当前时序对应的字符嵌入向量得到遗忘门结果；深度学习层配置为，对不同时序对应的多个字符嵌入向量进行并行处理以得到不同时序对应的多个输出结果，并根据多个输出结果输出与输入文本对应的第一特征向量；条件随机场层，配置为根据第一特征向量确定输入文本的每个字符对应的符号标签，其中，符号标签用于指示对应字符后面的标点符号。解决了相关技术中无法快速有效地实现语音识别后的文本中的标点符号预测的问题。识别后的文本中的标点符号预测的问题。识别后的文本中的标点符号预测的问题。

全部详细技术资料下载

【技术实现步骤摘要】
标点符号确定模型及确定方法

[0001]本申请涉及数据处理
，具体而言，涉及一种标点符号确定模型及确定方法。

技术介绍

[0002]自动语音识别技术(Automatic Speech Recognition，简称为ASR)识别过程中，用户输入目标音频后ASR网络模型可将其识别为相应的文本，但上述文本中通常不包括标点符号，故用户在阅读上述文本时存在一定的阅读障碍。
[0003]目前，相关技术中的标点预测大部分基于传统循环神经网络实现，如采用循环神经网络(Recurrent Neural Network,，简称为RNN)，长短期记忆网络(LSTM，Long Short
‑
Term Memory，简称为LSTM)，双向长短期记忆网络(BI
‑
LSTM)，门控循环单元(Gated Recurrent Unit，简称为GRU)等网络。虽然基于上述相关网络结构可构建标点预测的网络模型，但是，由于上述网络结构中当前的层输入为前一层的输出，即采用串行结构，该类型的网络构架一方面不能进行并行化处理，致使在标点预测过程中的效率低下，影响用户体验；另一方面，上述网络结构的标点预测的准确性也并不理想。
[0004]针对相关技术中，无法快速有效地实现语音识别后的文本中的标点符号预测的问题，相关技术中尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种标点符号确定模型及确定方法，以至少解决相关技术中无法快速有效地实现语音识别后的文本中的标点符号预测的...

【技术保护点】

【技术特征摘要】
1.一种标点符号确定模型，其特征在于，包括：嵌入查找层，配置为通过预设的嵌入矩阵，将输入文本中的每个字符转换为字符嵌入向量；其中，所述输入文本中的每个字符分别对应不同的时序；深度学习层，包括线性变化单元与遗忘门单元，其中，所述线性变化单元配置为根据当前时序对应的所述字符嵌入向量得到线性变化结果，所述遗忘门单元配置为，根据当前时序对应的所述字符嵌入向量得到遗忘门结果；所述深度学习层配置为，至少根据所述线性变化结果与所述遗忘门结果得到当前时序对应的输出结果；所述深度学习层还配置为，对不同时序对应的多个所述字符嵌入向量进行并行处理以得到不同时序对应的多个所述输出结果，并根据多个所述输出结果输出与所述输入文本对应的第一特征向量；条件随机场层，配置为根据所述第一特征向量确定所述输入文本的每个字符对应的符号标签，其中，所述符号标签用于指示对应字符后面的标点符号。2.根据权利要求1所述的模型，其特征在于，所述深度学习层包括：简单循环单元层，包括所述线性变化单元、所述遗忘门单元以及输出状态确定单元；其中，所述输出状态确定单元配置为，根据当前时序对应的所述线性变化结果与所述遗忘门结果确定当前时序对应的内部状态，并根据当前时序对应的内部状态以及上一时序对应的内部状态确定当前时序对应的输出状态；所述上一时序对应的内部状态由上一时序对应的线性变化结果与遗忘门结果确定；所述简单循环单元层还配置为，对不同时序对应的多个所述字符嵌入向量进行并行处理以得到不同时序对应的多个所述输出状态；注意力机制层，配置为根据当前时序对应的所述输出状态与其它时序对应的所述输出状态之间的依赖关系，确定当前时序对应的所述字符在所述输入文本中的结构权重；其中，所述结构权重用于指示所述输入文本中的各个字符与当前时序对应的所述字符的关联性大小；所述深度学习层还配置为，根据不同时序对应的多个所述输出状态以及每个输出状态对应的所述结构权重确定不同时序对应的多个所述输出结果，并根据多个所述输出结果输出所述第一特征向量。3.根据权利要求1或2所述的模型，其特征在于，所述线性变化单元中还包括：投影子单元，配置为根据预设的第一投影矩阵与第二投影矩阵对当前时序对应的所述字符嵌入向量进行线性变化以得到线性变化结果；其中，所述第二投影矩阵的维度小于所述第一投影矩阵的维度。4.一种标点符号确定方法，其特征在于，包括：将目标文本输入权利要求1至3任一项所述的标点符号确定模型；通过所述标点符号确定模型输出所述目标文本的每个字符对应的目标符号标签，其中，所述目标符号标签用于指示对应字符后面的标点符号。5.根据权利要求4所述的方法，其特征在于，所述通过所述标点符号确定模型输出所述目标文本的每个字符对应的目标符号标签，包括：通过预设的嵌入矩阵，将所述目标文本中的每个目标字符转换为目标字符嵌入向量；其中，所...

【专利技术属性】
技术研发人员：司马华鹏，蒋达，汤毅平，
申请(专利权)人：宿迁硅基智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人