标点符号的添加方法、装置和计算机设备制造方法及图纸

技术编号：17409618 阅读：22 留言：0更新日期：2018-03-07 06:35

本申请提出一种标点符号的添加方法、装置和计算机设备，其中，上述标点符号的添加方法包括：对待识别文本中的每个汉字进行编码，根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量；将所述汉字的特征向量输入双向的长短时记忆模型，通过所述双向的长短时记忆模型生成所述汉字的输入特征；将所述汉字的输入特征输入深层神经网络模型，获得所述汉字后每种标点符号的添加结果对应的概率；根据概率最高的添加结果在所述汉字后添加标点符号。本申请可以实现利用待识别文本中汉字的双方向的上下文信息，为待识别文本添加标点符号，提高标点符号添加的准确性，提高用户体验。

Adding methods, devices, and computer equipment for punctuation

The invention provides added method, apparatus and computer equipment, a punctuation mark which includes adding method of the punctuation: treat each Chinese characters recognition of text encoding, according to the Chinese characters encoding, the word segmentation and POS Chinese characters into the boundary feature vector Chinese characters; feature vector the length of the Chinese characters input bidirectional memory model, through the length of the two-way memory model to generate the input characteristics of Chinese characters; the input characteristics of the Chinese characters input deep neural network model, the probability of the corresponding results are added each punctuation to obtain the Chinese characters; according to the results of adding the highest probability add punctuation in the Chinese characters after. This application can realize the use of two direction contextual information of Chinese characters to be identified, adding punctuation marks to the text to be identified, improving the accuracy of punctuation addition and improving user experience.

全部详细技术资料下载

【技术实现步骤摘要】
标点符号的添加方法、装置和计算机设备
本申请涉及语音识别
，尤其涉及一种标点符号的添加方法、装置和计算机设备。
技术介绍
目前语音识别结果的准确率已经达到较高水平，但标点符号在语音中是不发音的，单纯根据语音信息加入标点符号的效果较差，使用文本信息为语音识别结果自动添加标点可以显著提高语音识别的用户体验。现有的添加标点符号的方法，一般使用语音信息进行规则匹配，根据语音中的停顿等信息设置规则添加标点符号，但通常只能加入逗号等分隔符进行分句。但是，由于标点不发音，只能通过静音长度判断是否需要加入分隔符，效果较差，用户体验不高。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请的第一个目的在于提出一种标点符号的添加方法，以实现利用待识别文本中汉字的双方向的上下文信息，为待识别文本添加标点符号，提高标点符号添加的准确性，提高用户体验。本申请的第二个目的在于提出一种标点符号的添加装置。本申请的第三个目的在于提出一种计算机设备。本申请的第四个目的在于提出一种非临时性计算机可读存储介质。为达上述目的，本申请第一方面实施例提出一种标点符号的添加方法，包括：对待识别文本中的每个汉字进行编码，根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量；将所述汉字的特征向量输入双向的长短时记忆模型，通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合，生成所述汉字的输入特征；将所述汉字的输入特征输入深层神经网络模型，获得所述汉字后每种标点符号的添加结果对应的概率，所述汉字后...
标点符号的添加方法、装置和计算机设备

【技术保护点】
一种标点符号的添加方法，其特征在于，包括：对待识别文本中的每个汉字进行编码，根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量；将所述汉字的特征向量输入双向的长短时记忆模型，通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合，生成所述汉字的输入特征；将所述汉字的输入特征输入深层神经网络模型，获得所述汉字后每种标点符号的添加结果对应的概率，所述汉字后每种标点符号的添加结果对应的概率包括：所述汉字后不加标点符号的概率，以及所述汉字后加每种标点符号的概率；根据概率最高的添加结果在所述汉字后添加标点符号。

【技术特征摘要】
1.一种标点符号的添加方法，其特征在于，包括：对待识别文本中的每个汉字进行编码，根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量；将所述汉字的特征向量输入双向的长短时记忆模型，通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合，生成所述汉字的输入特征；将所述汉字的输入特征输入深层神经网络模型，获得所述汉字后每种标点符号的添加结果对应的概率，所述汉字后每种标点符号的添加结果对应的概率包括：所述汉字后不加标点符号的概率，以及所述汉字后加每种标点符号的概率；根据概率最高的添加结果在所述汉字后添加标点符号。2.根据权利要求1所述的方法，其特征在于，所述对待识别文本中的每个汉字进行编码包括：利用预先统计的字典，对待识别文本中的每个汉字进行编码。3.根据权利要求1所述的方法，其特征在于，所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息包括：所述汉字的从前至后和从后至前两个方向整句文本的上下文信息，所述上下文信息包括所述汉字所属的句子成分、所述汉字在句子中的位置、所述汉字的上下文文本中各分词的分词属性和所述汉字的上下文文本的语义信息。4.根据权利要求1所述的方法，其特征在于，所述将所述汉字的输入特征输入深层神经网络模型之前，还包括：对训练语句中的每个汉字进行编码，作为输入特征；将所述训练语句中所述汉字后的标点符号的添加结果进行编码，作为输出特征；通过所述输入特征和所述输出特征对深层神经网络模型进行训练，当所述深层神经网络模型的输出结果与所述输出特征误差最小时，获得训练好的深层神经网络模型。5.根据权利要求1-4任意一项所述的方法，其特征在于，所述对待识别文本中的每个汉字进行编码之前，还包括：对用户输入的语音进行识别，获得待识别文本，所述待识别文本中包括所述语音的间隔信息；所述根据概率最高的添加结果在所述汉字后添加标点符号之后，还包括：对所述语音的间隔信息对应的每个语音间隔添加标点符号的情况进行检测；在尚未添加标点符号的语音间隔添加标点符号。6.一种标点符号的添加装置，其特征在于，包括：生成模块，用于对待识别文本中的每个汉字进行编码，根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特...

【专利技术属性】
技术研发人员：李剑风，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人