标点恢复方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:31509038 阅读:22 留言:0更新日期:2021-12-22 23:44
本发明专利技术实施例公开了标点恢复方法、装置、计算机设备及存储介质。所述方法包括:获取待处理文本数据;对所述待处理文本数据进行分割,以得到输入文本;将所述输入文本进行处理,并输入至神经网络模型内进行神经元标签计算,以得到文本标记以及标点符号标记;根据所述文本标记以及标点符号标记在所述待处理文本数据上插入标点符号,以得到标点恢复文本。通过实施本发明专利技术实施例的方法可实现可针对两种语言或者不同语系下的语言混合的文本进行准确添加标点。添加标点。添加标点。

【技术实现步骤摘要】
标点恢复方法、装置、计算机设备及存储介质


[0001]本专利技术涉及文本处理方法,更具体地说是指标点恢复方法、装置、计算机设备及存储介质。

技术介绍

[0002]标点符号错误和缺失在自然语言处理和语音识别中十分常见。以语音识别为例,常规的语音识别方法中,是将语音转写为文本,而没有任何断句和标点。为了添加适当的标点符号,现有的解决方案一般采用标注模型和神经网络方法,通过大量训练恢复文本标点。
[0003]现有的标点处理方式包括根据语音转换的无标点文本形成索引序列,利用深度神经网络模型获取每个索引序列的概率分布,进而获得该索引序列的最大概率。这个最大概率分布值就是对应字后面要添加的标点符号索引。若索引对应空白标签,则跳过;还有一种方式是通过标注模型和决策模型实现标注标点的功能。无标点的文本输入到标注模型,得到当前文本是否添加标点的标注结果;决策模型对该标注结果进行评估,控制是否将标注结果输出。将两个模型训练至收敛后,就可实现实时场景下对文本添加标点。
[0004]但是,现有技术并未考虑语言混用时的标点标注问题,而在语言或技术教学中两本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.标点恢复方法,其特征在于,包括:获取待处理文本数据;对所述待处理文本数据进行分割,以得到输入文本;将所述输入文本进行处理,并输入至神经网络模型内进行神经元标签计算,以得到文本标记以及标点符号标记;根据所述文本标记以及标点符号标记在所述待处理文本数据上插入标点符号,以得到标点恢复文本。2.根据权利要求1所述的标点恢复方法,其特征在于,所述对所述待处理文本数据进行分割,以得到输入文本,包括:识别所述待处理文本数据的语言种类,以得到识别结果;判断所述识别结果是否是中英文混合种类;若所述识别结果是中英文混合种类,则对所述待处理文本数据进行中文和英文的分隔,以得到分隔结果;对中文进行分词,以得到分词结果;对所述分词结果采用空格分开不同词性的字词,以得到输入文本。3.根据权利要求2所述的标点恢复方法,其特征在于,所述判断所述识别结果是否是中英文混合种类之后,还包括;若所述识别结果不是中英文混合种类,则判断所述识别结果是否是中文种类;若所述识别结果是中文种类,则执行所述对中文进行分词,以得到分词结果;若所述识别结果不是中文种类,则舍弃所述待处理文本数据。4.根据权利要求1所述的标点恢复方法,其特征在于,所述将所述输入文本进行处理,并输入至神经网络模型内进行神经元标签计算,以得到文本标记以及标点符号标记,包括:将所述输入文本添加引号标识,并进行词分割,以得到字符串序列;将所述字符串序列输入至神经网络模型内,以计算神经元标签,以得到文本标记以及标点符号标记。5.根据权利要求4所述的标点恢复方法,其特征在于,所述将...

【专利技术属性】
技术研发人员:张明黄元忠卢庆华
申请(专利权)人:深圳市木愚科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1