标点符号的校正系统技术方案

技术编号:28116418 阅读:28 留言:0更新日期:2021-04-19 11:14
标点符号的校正系统,所述系统包括:标点符号处理单元,适于对待校正的文本进行去标点符号处理,得到待添加标点符号的文本;标点符号标注单元,适于将所述待添加标点符号的文本输入完成迁移学习训练的标点符号标注模型,采用所述标点符号标注模型预测所述待添加标点符号的文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,输出对应的标点符号标注结果;标点符号添加单元,适于根据所述标点符号标注结果,对所述待添加标点符号的文本添加相应的标点符号,得到相应的校正文本。上述方案可以提高标点符号预测的准确率,满足标点符号校正的需求。校正的需求。校正的需求。

【技术实现步骤摘要】
标点符号的校正系统


[0001]本专利技术实施例涉及计算机自然语言处理
,尤其涉及一种标点符号的校正系统。

技术介绍

[0002]现有的标点符号恢复的方案通常采用序列标注的方式,主要应用于恢复语音识别得到的文本的标点符号,一般只能增加简单的标点符号,如:逗号、句号。使用这种方式添加的标点,一方面准确度较低、泛化能力差;另一方面标注的标点符号丰富性差,给人造成很差的阅读体验。
[0003]随着深度学习技术的不断发展,可以采用经过训练学习的神经网络模型预测语音识别得到的文本的标点符号,提高准确度。然而,现有训练方法获得的神经网络模型的召回率较低、泛化能力弱以及通用性差,无法满足多变的标点符号预测需求。

技术实现思路

[0004]有鉴于此,本专利技术实施例的一个方面,
[0005]提供了一种标点符号的校正系统,能够提高标点符号预测的准确率,满足标点符号校正的需求。
[0006]本专利技术实施例提供了一种标点符号的校正系统,所述系统包括:
[0007]标点符号处理单元,适于对待校正的文本进行去标点符号处理,得到待添加标点符号的文本;标点符号标注单元,适于将所述待添加标点符号的文本输入完成迁移学习训练的标点符号标注模型,采用所述标点符号标注模型预测所述待添加标点符号的文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,输出对应的标点符号标注结果;标点符号添加单元,适于根据所述标点符号标注结果,对所述待添加标点符号的文本添加相应的标点符号,得到相应的校正文本;其中,所述标点符号标注模型包括预训练的语言子模型,所述语言子模型为具有时间序列的神经网络模型。
[0008]可选地,所述标点符号的校正系统还包括:校正评估单元,适于将所述校正文本输入完成训练的语言评估模型,获得所述校正文本的语言评估值;根据所述校正文本的语言评估值的大小,确定校正文本是否满足预设的校正质量要求;其中,所述语言评估模型为具有时间序列的神经网络模型。
[0009]可选地,所述校正评估单元包括:第一标点符号替换子单元,适于基于预设的第一替换规则,采用预设的第二标点符号集合中的标点符号替换所述校正文本中的标点符号;语言评估子单元,适于通过所述语言评估模型获得替换后的文本的语言评估值;标点符号评估子单元,适于通过比较所述校正文本的语言评估值与替换后的文本的语言评估值之间的大小,确定所述校正文本中错误的标点符号和相应的标点符号位置;质量评估子单元,适于在所述校正文本中不存在错误的标点符号时,确定所述校正文本满足预设的校正质量要
求。
[0010]可选地,所述标点符号的校正系统还包括:位置匹配单元,适于在校正文本中存在错误的标点符号时,匹配所述校正文本中标点符号的位置信息与所述待校正的文本中标点符号的位置信息;标点符号调整单元,适于在所述校正文本相对所述待校正的文本存在缺少的标点符号时,将所述待校正的文本中相应的标点符号添加至所述校正文本的相应位置处,在所述校正文本相对所述待校正的文本存在多余的标点符号时,将所述待校正的文本中相应的标点符号删除,作为第二校正文本;文本选取单元,适于至少选取所述校正文本和所述第二校正文本中一个作为待修正的文本;标点符号替换单元,适于基基于预设的第二替换规则,将所述第二标点符号集合中的标点符号替换所述待修正的文本中的标点符号,并将替换后的文本输入所述校正评估单元,通过所述语言评估模型获得替换后的文本的语言评估值;文本修正单元,适于通过比较所述待修正的文本的语言评估值和各替换后的文本的语言评估值的大小,将最小的语言评估值对应的文本作为修正后的校正文本。
[0011]可选地,所述标点符号替换单元包括:随机组合子单元,适于将所述第二标点符号集合中的标点符号进行随机组合,并与相应的标点符号位置相关联,获得随机组合集合;第二标点符号替换子单元,适于在所述随机组合集合中选取一组随机组合,根据所述随机组合相关联的标点符号位置,替换所述待修正的文本中的标点符号,直至历遍所述随机组合集合中所有随机组合。
[0012]可选地,所述预设的第二标点符号集合包括:所述待校正的文本中正确的标点符号和相应的标点符号位置。
[0013]可选地,所述标点符号的校正系统还包括:校正预判单元,适于将所述待校正的文本输入校正评估单元,通过所述语言评估模型获得所述待校正的文本的语言评估值,并通过判断所述待校正的文本的语言评估值的大小,确定是否需要校正。
[0014]可选地,所述标点符号标注模型适于根据预设的第一标点符号集合,识别所述标点符号类型对应的标点符号,并根据预设的标点符号位置标签集合,对所述标点符号待添加位置的前后分词单元处采用所述标点符号对应的标签组合进行标注。
[0015]可选地,所述标点符号标注模型适于在所述标点符号待添加位置的前后均有分词单元时,根据所述标点符号位置标签集合,对所述标点符号待添加位置的前后分词单元处,采用所述标点符号对应的标签组合进行标注;所述标点符号添加单元包括第一添加子单元,适于在所述待添加标点符号的文本中的前后两个分词单元处分别标注相同标点符号对应的标签组合时,在这两个分词单元中间添加所述标点符号。
[0016]可选地,所述标点符号处理单元包括符号添加子单元,适于对输入的无标点符号的文本添加空位补齐符号,获得所述待添加标点符号的文本;
[0017]所述标点符号标注模型适于在所述标点符号待添加位置之前或之后有一处为空位补齐符号时,根据所述标点符号位置标签集合,对所述标点符号待添加位置之后或之前的分词单元处及之前或之后的空位补齐符号,采用所述标点符号对应的标签组合进行标注;
[0018]所述标点符号添加单元还包括第二添加子单元,适于在所述待添加标点符号的文本中的空位补齐符号和其相邻的分词单元处分别标注相同标点符号对应的标签组合时,在所述空位补齐符号和其相邻的分词单元中间添加对应的标点符号。
[0019]采用本专利技术实施例的标点符号的校正系统,可以将去标点符号处理后获取的待添加标点符号的文本输入完成迁移学习训练的标点符号标注模型,采用所述标点符号标注模型预测所述待添加标点符号的文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,输出对应的标点符号标注结果,进而可以根据所述标点符号标注结果,对所述待添加标点符号的文本添加相应的标点符号,得到相应的校正文本。
[0020]由上可知,本专利技术实施例的标点符号的校正系统采用的神经网络模型包括语言子模型,所述语言子模型为具有时间序列的神经网络模型,经过预训练的语言子模型,能够充分考虑到标点符号前后分词单元的信息,并且,由于标点符号标注模型包括预训练的语言子模型,因此,进行迁移学习训练能够减少训练数据的数量,实现快速收敛,获得的神经网络模型具有较好泛化能力和通用性,从而更加精确地预测标点符号类型,提高标点符号预测的召回率;然后,采用标签组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标点符号的校正系统,其特征在于,包括:标点符号处理单元,适于对待校正的文本进行去标点符号处理,得到待添加标点符号的文本;标点符号标注单元,适于将所述待添加标点符号的文本输入完成迁移学习训练的标点符号标注模型,采用所述标点符号标注模型预测所述待添加标点符号的文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,输出对应的标点符号标注结果;标点符号添加单元,适于根据所述标点符号标注结果,对所述待添加标点符号的文本添加相应的标点符号,得到相应的校正文本;其中,所述标点符号标注模型包括预训练的语言子模型,所述语言子模型为具有时间序列的神经网络模型。2.根据权利要求1所述的标点符号的校正系统,其特征在于,还包括:校正评估单元,适于将所述校正文本输入完成训练的语言评估模型,获得所述校正文本的语言评估值,并根据所述校正文本的语言评估值的大小,确定校正文本是否满足预设的校正质量要求;其中,所述语言评估模型为具有时间序列的神经网络模型。3.根据权利要求2所述的标点符号的校正系统,其特征在于,所述校正评估单元包括:第一标点符号替换子单元,适于基于预设的第一替换规则,采用预设的第二标点符号集合中的标点符号替换所述校正文本中的标点符号;语言评估子单元,适于通过所述语言评估模型获得替换后的文本的语言评估值;标点符号评估子单元,适于通过比较所述校正文本的语言评估值与替换后的文本的语言评估值之间的大小,确定所述校正文本中错误的标点符号和相应的标点符号位置;质量评估子单元,适于在所述校正文本中不存在错误的标点符号时,确定所述校正文本满足预设的校正质量要求。4.根据权利要求3所述的标点符号的校正系统,其特征在于,还包括:位置匹配单元,适于在所述校正文本中存在错误的标点符号时,匹配所述校正文本中标点符号的位置信息与所述待校正的文本中标点符号的位置信息;标点符号调整单元,适于在所述校正文本相对所述待校正的文本存在缺少的标点符号时,将所述待校正的文本中相应的标点符号添加至所述校正文本的相应位置处,在所述校正文本相对所述待校正的文本存在多余的标点符号时,将所述待校正的文本中相应的标点符号删除,作为第二校正文本;文本选取单元,适于至少选取所述校正文本和所述第二校正文本中一个作为待修正的文本;标点符号替换单元,适于基于预设的第二替换规则,将所述第二标点符号集合中的标点符号替换所述待修正的文本中的标点符号,并将替换后的文本输入所述校正评估单元,通过所述语言评估模型获得替换后的文本的语言评估值;文本修正单元,适...

【专利技术属性】
技术研发人员:沈大框陈培华陈成才
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1