The embodiment of the invention provides a method and a device for adding punctuation, punctuation device added, the method includes: obtaining the text to be processed; to add text to the punctuation, in order to get the first text corresponding to add punctuation processing results; if the first results including the target text add punctuation more than words threshold and does not contain preset punctuation, punctuation is by adding a neural network model for the target text to the target text, get the corresponding second results add punctuation. The embodiment of the invention can improve the accuracy of adding punctuation marks.
【技术实现步骤摘要】
标点添加方法和装置、用于标点添加的装置
本专利技术涉及信息处理
,特别是涉及一种标点添加方法和装置、以及一种用于标点添加的装置。
技术介绍
在通信领域以及互联网领域等信息处理
,在某些应用场景中需要为一些缺少标点的文件添加标点,例如,为了方便阅读,为语音识别结果对应的文本添加标点等。现有方案可以依据语音信号的静音间隔,为语音识别结果对应的文本添加标点。具体地,可以首先设置静音长短的阈值,如果语音信号中讲话用户说话时的静音间隔的长度超过该阈值,则在对应的位置上添加标点;反之,如果语音信号中讲话用户说话时的静音间隔的长度未超过该阈值,则不添加标点。然而,专利技术人在实现本专利技术实施例的过程中发现,不同讲话用户往往具有不同的语速,这样,现有方案中依据语音信号的静音间隔,为语音识别结果对应的文本添加标点,将影响标点添加的准确度。例如,若讲话用户的语速过快,则语句之间没有间隔、或者间隔很短以至于小于阈值,那么将不为文本添加任何标点。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的标点添加方法、标点添加装置、用 ...
【技术保护点】
一种标点添加方法,其特征在于,包括:获取待处理文本;为所述待处理文本添加标点,以得到所述待处理文本对应的第一标点添加结果;若所述第一标点添加结果包括字数超过字数阈值且不包含预置标点的目标文本,则通过神经网络模型为所述目标文本添加标点,以得到所述目标文本对应的第二标点添加结果。
【技术特征摘要】
1.一种标点添加方法,其特征在于,包括:获取待处理文本;为所述待处理文本添加标点,以得到所述待处理文本对应的第一标点添加结果;若所述第一标点添加结果包括字数超过字数阈值且不包含预置标点的目标文本,则通过神经网络模型为所述目标文本添加标点,以得到所述目标文本对应的第二标点添加结果。2.根据权利要求1所述的方法,其特征在于,所述通过神经网络模型为所述目标文本添加标点,包括:对所述目标文本进行分词,以得到对应的第二词序列;获取所述第二词序列对应的多种候选标点添加结果;利用神经网络语言模型,确定所述候选标点添加结果对应的语言模型得分;从所述第二词序列对应的多种候选标点添加结果中选择语言模型得分最优的候选标点添加结果,作为所述目标文本对应的第二标点添加结果。3.根据权利要求1所述的方法,其特征在于,所述通过神经网络模型为所述目标文本添加标点,包括:通过神经网络转换模型为所述目标文本添加标点,以得到所述目标文本对应的第二标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点。4.根据权利要求3所述的方法,其特征在于,所述通过神经网络转换模型为所述目标文本添加标点,包括:对所述目标文本进行编码,以得到所述目标文本对应的源端隐层状态;依据神经网络转换模型的模型参数,对所述目标文本对应的源端隐层状态进行解码,以得到所述目标文本中各词汇属于候选标点的概率;依据目标文本中各词汇属于候选标点的概率,得到所述目标文本对应的第二标点添加结果。5.根据权利要求1至4中任一所述的方法,其特征在于,所述为所述待处理文本添加标点,包括:通过N元文法语言模型为所述待处理文本添加标点。6.根据权利要求5所述的方法,其特征在于,所述通过N元文法语言模型为所述待处理文本添加标点,包括:对所述待处理文本进行分词,以得到所述待处理文本对应的第一词序列;在所述第一词序列中相邻词之间添加标点,以得到所述第一词序列对应的全局标点添加路径;按照从前到后的顺序,通过移动方式从所述全局标点添加路径中获取局...
【专利技术属性】
技术研发人员:姜里羊,王宇光,陈伟,郑宏,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。