标点符号的校正方法及设备、介质技术

技术编号:23149906 阅读:37 留言:0更新日期:2020-01-18 13:47
标点符号的校正方法及设备、介质,所述方法包括:对待校正的文本进行去标点符号处理,得到待添加标点符号的文本;将所述待添加标点符号的文本输入完成迁移学习训练的标点符号标注模型,采用所述标点符号标注模型预测所述待添加标点符号的文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,输出对应的标点符号标注结果;根据所述标点符号标注结果,对所述待添加标点符号的文本添加相应的标点符号,得到相应的校正文本。上述方案可以提高标点符号预测的准确率,满足标点符号校正的需求。

Calibration method, equipment and medium of punctuation

【技术实现步骤摘要】
标点符号的校正方法及设备、介质
本专利技术实施例涉及计算机自然语言处理
,尤其涉及一种标点符号的校正方法及设备、介质。
技术介绍
现有的标点符号恢复的方案通常采用序列标注的方式,主要应用于恢复语音识别得到的文本的标点符号,一般只能增加简单的标点符号,如:逗号、句号。使用这种方式添加的标点,一方面准确度较低、泛化能力差;另一方面标注的标点符号丰富性差,给人造成很差的阅读体验。随着深度学习技术的不断发展,可以采用经过训练学习的神经网络模型预测语音识别得到的文本的标点符号,提高准确度。然而,现有训练方法获得的神经网络模型的召回率较低、泛化能力弱以及通用性差,无法满足多变的标点符号预测需求。
技术实现思路
有鉴于此,本专利技术实施例的一个方面,提供了一种标点符号的校正方法及设备、介质,能够提高标点符号预测的准确率,满足标点符号校正的需求。本专利技术实施例提供了一种标点符号的校正方法,所述方法包括:对待校正的文本进行去标点符号处理,得到待添加标点符号的文本;将所述待添加标点符号的文本输入完成迁移学习训练的本文档来自技高网...

【技术保护点】
1.一种标点符号的校正方法,其特征在于,包括:/n对待校正的文本进行去标点符号处理,得到待添加标点符号的文本;/n将所述待添加标点符号的文本输入完成迁移学习训练的标点符号标注模型,采用所述标点符号标注模型预测所述待添加标点符号的文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,输出对应的标点符号标注结果;/n根据所述标点符号标注结果,对所述待添加标点符号的文本添加相应的标点符号,得到相应的校正文本;/n其中,所述标点符号标注模型包括预训练的语言子模型,所述语言子模型为具有时间序列的神经网络模型。/n

【技术特征摘要】
1.一种标点符号的校正方法,其特征在于,包括:
对待校正的文本进行去标点符号处理,得到待添加标点符号的文本;
将所述待添加标点符号的文本输入完成迁移学习训练的标点符号标注模型,采用所述标点符号标注模型预测所述待添加标点符号的文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,输出对应的标点符号标注结果;
根据所述标点符号标注结果,对所述待添加标点符号的文本添加相应的标点符号,得到相应的校正文本;
其中,所述标点符号标注模型包括预训练的语言子模型,所述语言子模型为具有时间序列的神经网络模型。


2.根据权利要求1所述的标点符号的校正方法,其特征在于,还包括:
将所述校正文本输入完成训练的语言评估模型,获得所述校正文本的语言评估值;
根据所述校正文本的语言评估值的大小,确定校正文本是否满足预设的校正质量要求;
其中,所述语言评估模型为具有时间序列的神经网络模型。


3.根据权利要求2所述的标点符号的校正方法,其特征在于,所述根据所述校正文本的语言评估值的大小,确定校正文本是否满足预设的校正质量要求,包括:
基于预设的第一替换规则,采用预设的第二标点符号集合中的标点符号替换所述校正文本中的标点符号,并通过所述语言评估模型获得替换后的文本的语言评估值;
通过比较所述校正文本的语言评估值与替换后的文本的语言评估值之间的大小,确定所述校正文本中错误的标点符号和相应的标点符号位置;
当所述校正文本中不存在错误的标点符号时,确定所述校正文本满足预设的校正质量要求。


4.根据权利要求3所述的标点符号的校正方法,其特征在于,还包括:
当校正文本中存在错误的标点符号时,匹配所述校正文本中标点符号的位置信息与所述待校正的文本中标点符号的位置信息;
在所述校正文本相对所述待校正的文本存在缺少的标点符号时,将所述待校正的文本中相应的标点符号添加至所述校正文本的相应位置处,在所述校正文本相对所述待校正的文本存在多余的标点符号时,将所述待校正的文本中相应的标点符号删除,作为第二校正文本;
至少选取所述校正文本和所述第二校正文本中一个作为待修正的文本;
基于预设的第二替换规则,将所述第二标点符号集合中的标点符号替换所述待修正的文本中的标点符号,并通过所述语言评估模型获得替换后的文本的语言评估值;
通过比较所述校正文本的语言...

【专利技术属性】
技术研发人员:沈大框陈培华陈成才
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1