标点符号的添加方法、装置和计算机设备制造方法及图纸

技术编号:17409618 阅读:22 留言:0更新日期:2018-03-07 06:35
本申请提出一种标点符号的添加方法、装置和计算机设备,其中,上述标点符号的添加方法包括:对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型生成所述汉字的输入特征;将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率;根据概率最高的添加结果在所述汉字后添加标点符号。本申请可以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。

Adding methods, devices, and computer equipment for punctuation

The invention provides added method, apparatus and computer equipment, a punctuation mark which includes adding method of the punctuation: treat each Chinese characters recognition of text encoding, according to the Chinese characters encoding, the word segmentation and POS Chinese characters into the boundary feature vector Chinese characters; feature vector the length of the Chinese characters input bidirectional memory model, through the length of the two-way memory model to generate the input characteristics of Chinese characters; the input characteristics of the Chinese characters input deep neural network model, the probability of the corresponding results are added each punctuation to obtain the Chinese characters; according to the results of adding the highest probability add punctuation in the Chinese characters after. This application can realize the use of two direction contextual information of Chinese characters to be identified, adding punctuation marks to the text to be identified, improving the accuracy of punctuation addition and improving user experience.

【技术实现步骤摘要】
标点符号的添加方法、装置和计算机设备
本申请涉及语音识别
,尤其涉及一种标点符号的添加方法、装置和计算机设备。
技术介绍
目前语音识别结果的准确率已经达到较高水平,但标点符号在语音中是不发音的,单纯根据语音信息加入标点符号的效果较差,使用文本信息为语音识别结果自动添加标点可以显著提高语音识别的用户体验。现有的添加标点符号的方法,一般使用语音信息进行规则匹配,根据语音中的停顿等信息设置规则添加标点符号,但通常只能加入逗号等分隔符进行分句。但是,由于标点不发音,只能通过静音长度判断是否需要加入分隔符,效果较差,用户体验不高。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种标点符号的添加方法,以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。本申请的第二个目的在于提出一种标点符号的添加装置。本申请的第三个目的在于提出一种计算机设备。本申请的第四个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本申请第一方面实施例提出一种标点符号的添加方法,包括:对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合,生成所述汉字的输入特征;将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率,所述汉字后每种标点符号的添加结果对应的概率包括:所述汉字后不加标点符号的概率,以及所述汉字后加每种标点符号的概率;根据概率最高的添加结果在所述汉字后添加标点符号。本申请实施例的标点符号的添加方法,对待识别文本中的每个汉字进行编码,根据上述汉字的编码、上述汉字的分词词性和分词边界生成上述汉字的特征向量,然后将上述汉字的特征向量输入双向的长短时记忆(LongShort-TermMemory;以下简称:LSTM)模型,通过上述双向的LSTM模型将上述汉字的特征向量与上述双向的LSTM模型获取的上述汉字的双方向的上下文信息结合,生成上述汉字的输入特征,将上述汉字的输入特征输入深层神经网络模型,获得上述汉字后每种标点符号的添加结果对应的概率,最后根据概率最高的添加结果在上述汉字后添加标点符号,从而可以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。为达上述目的,本申请第二方面实施例提出了一种标点符号的添加装置,包括:生成模块,用于对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;以及将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合,生成所述汉字的输入特征;获得模块,用于将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率,所述汉字后每种标点符号的添加结果对应的概率包括:所述汉字后不加标点符号的概率,以及所述汉字后加每种标点符号的概率;添加模块,用于根据概率最高的添加结果在所述汉字后添加标点符号。本申请实施例的标点符号的添加装置,生成模块对待识别文本中的每个汉字进行编码,根据上述汉字的编码、上述汉字的分词词性和分词边界生成上述汉字的特征向量,以及将上述汉字的特征向量输入双向的LSTM模型,通过上述双向的LSTM模型将上述汉字的特征向量与上述双向的LSTM模型获取的上述汉字的双方向的上下文信息结合,生成上述汉字的输入特征,获得模块将上述汉字的输入特征输入深层神经网络模型,获得上述汉字后每种标点符号的添加结果对应的概率,最后添加模块根据概率最高的添加结果在上述汉字后添加标点符号,从而可以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的方法。为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请标点符号的添加方法一个实施例的流程图;图2为本申请标点符号的添加方法另一个实施例的流程图;图3为本申请标点符号的添加方法再一个实施例的流程图;图4为本申请标点符号的添加方法再一个实施例的流程图;图5为本申请标点符号的添加装置一个实施例的结构示意图;图6为本申请标点符号的添加装置另一个实施例的结构示意图;图7为本申请计算机设备一个实施例的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。图1为本申请标点符号的添加方法一个实施例的流程图,如图1所示,上述标点符号的添加方法可以包括:步骤101,对待识别文本中的每个汉字进行编码,根据上述汉字的编码、上述汉字的分词词性和分词边界生成上述汉字的特征向量。步骤102,将上述汉字的特征向量输入双向的LSTM模型,通过上述双向的LSTM模型将上述汉字的特征向量与上述双向的LSTM模型获取的上述汉字的双方向的上下文信息结合,生成上述汉字的输入特征。本实施例中,双向的LSTM模型通过LSTM结构中的状态结构缓存历史的状态信息,并且通过输入门、遗忘门以及输出门对历史状态进行维护,从而实现了长距离的文本信息(例如:整句文本)的有效缓存和提取。双向的LSTM模型可以获取上述汉字的从前至后和从后至前两个方向整句文本的上下文信息,上述上下文信息包括上述汉字所属的句子成分、上述汉字在句子中的位置、所述汉字的上下文文本中各分词的分词属性和上述汉字的上下文文本的语义信息。其中,上述汉字所属的句子成分是指上述汉字属于句子的主语、谓语、宾语、状语或定语等;上述汉字的上下文文本中各分词的分词属性是指上述汉字的上下文文本中各分词的词性,例如上述分词为动词或名词等。具体地,双向的LSTM模型获得由待识别文本中每个汉字的特征向量组成的特征向量序列之后,需要按照序列的先后顺序来构建输出,将待识别文本看作序列,就存在从前至后和从后至前两个方向。从前往后,LSTM模型依据汉字前面的汉字特征(先输入的)来获取上文信息,从后往前,LSTM会依据汉字后面的汉字特征(反向先输入)来获取下文信息。本实施例中,双向的LSTM模型由于使用了大量语料,双向的LSTM模型获取的上述汉字的双方向的上下文信息中本文档来自技高网...
标点符号的添加方法、装置和计算机设备

【技术保护点】
一种标点符号的添加方法,其特征在于,包括:对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合,生成所述汉字的输入特征;将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率,所述汉字后每种标点符号的添加结果对应的概率包括:所述汉字后不加标点符号的概率,以及所述汉字后加每种标点符号的概率;根据概率最高的添加结果在所述汉字后添加标点符号。

【技术特征摘要】
1.一种标点符号的添加方法,其特征在于,包括:对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合,生成所述汉字的输入特征;将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率,所述汉字后每种标点符号的添加结果对应的概率包括:所述汉字后不加标点符号的概率,以及所述汉字后加每种标点符号的概率;根据概率最高的添加结果在所述汉字后添加标点符号。2.根据权利要求1所述的方法,其特征在于,所述对待识别文本中的每个汉字进行编码包括:利用预先统计的字典,对待识别文本中的每个汉字进行编码。3.根据权利要求1所述的方法,其特征在于,所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息包括:所述汉字的从前至后和从后至前两个方向整句文本的上下文信息,所述上下文信息包括所述汉字所属的句子成分、所述汉字在句子中的位置、所述汉字的上下文文本中各分词的分词属性和所述汉字的上下文文本的语义信息。4.根据权利要求1所述的方法,其特征在于,所述将所述汉字的输入特征输入深层神经网络模型之前,还包括:对训练语句中的每个汉字进行编码,作为输入特征;将所述训练语句中所述汉字后的标点符号的添加结果进行编码,作为输出特征;通过所述输入特征和所述输出特征对深层神经网络模型进行训练,当所述深层神经网络模型的输出结果与所述输出特征误差最小时,获得训练好的深层神经网络模型。5.根据权利要求1-4任意一项所述的方法,其特征在于,所述对待识别文本中的每个汉字进行编码之前,还包括:对用户输入的语音进行识别,获得待识别文本,所述待识别文本中包括所述语音的间隔信息;所述根据概率最高的添加结果在所述汉字后添加标点符号之后,还包括:对所述语音的间隔信息对应的每个语音间隔添加标点符号的情况进行检测;在尚未添加标点符号的语音间隔添加标点符号。6.一种标点符号的添加装置,其特征在于,包括:生成模块,用于对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特...

【专利技术属性】
技术研发人员:李剑风
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1