【技术实现步骤摘要】
标点符号标注模型及其训练方法、设备、存储介质
本专利技术实施例涉及计算机自然语言处理
,尤其涉及一种标点符号标注模型及其训练方法、设备、存储介质。
技术介绍
现有的标点符号恢复的方案通常采用序列标注的方式,主要应用于恢复语音识别得到的文本的标点符号,一般只能增加简单的标点符号,如:逗号、句号。使用这种方式添加的标点,一方面准确度较低、泛化能力差;另一方面标注的标点丰富性差,给人造成很差的阅读体验。随着深度学习技术的不断发展,可以采用经过训练学习的神经网络模型预测语音识别得到的文本的标点符号,提高准确度。然而,神经网络模型的学习训练需要人工标注大量的训练数据,且现有训练方法获得的神经网络模型的召回率较低。此外,所采用的标点符号标注模型泛化能力弱、通用性差。
技术实现思路
有鉴于此,本专利技术实施例的一个方面,提供了一种标点符号标注模型的训练方法、设备、存储介质,无需人工标注大量的训练数据,并且可以提高召回率。本专利技术实施例的另一个方面,提供了一种标点符号标注模型,具有较好的泛化能力及通用性。本专利技术实施例提供了一种标点符号标注模型的训练方法,所述方法包括:获取包含标点符号的第一训练语料;将所述第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;将所述第三训练语料输入初始的标点符号标注模型进行 ...
【技术保护点】
1.一种标点符号标注模型的训练方法,其特征在于,包括:/n获取包含标点符号的第一训练语料;/n将所述第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;/n获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;/n将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型;/n其中,所述标点符号标注模型包括:所述预训练的语言子模型,所述第三训练语料包括:无标点文本集合和标签序列集合,所述标签序列集合包括所述标签组合。/n
【技术特征摘要】
1.一种标点符号标注模型的训练方法,其特征在于,包括:
获取包含标点符号的第一训练语料;
将所述第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;
获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;
将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型;
其中,所述标点符号标注模型包括:所述预训练的语言子模型,所述第三训练语料包括:无标点文本集合和标签序列集合,所述标签序列集合包括所述标签组合。
2.根据权利要求1所述的标点符号标注模型的训练方法,其特征在于,所述获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料,包括:
根据预设的标点符号集合,识别所述第二训练语料的标点符号;
去除所述第二训练语料中的标点符号,获得相应的无标点文本集合,并根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,获得相应的标签序列集合。
3.根据权利要求2所述的标点符号标注模型的训练方法,其特征在于,所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,包括以下至少一种:
当已去除的标点符号前后均有分词单元时,根据所述标点符号位置标签集合对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合;
当已去除的标点符号之前或之后有一处无分词单元时,在已去除的标点符号之前或之后添加空位补齐符号填补空缺分词单元的位置,再根据所述标点符号位置标签集合对所述标点符号之后或之前的分词单元处及空位补齐符号标注相应位置关系的标签组合。
4.根据权利要求2或3所述的标点符号标注模型的训练方法,其特征在于,所述标点符号位置标签集合包括:设置在各个标点符号之前的分词单元处的起始位置标签、设置在各个标点符号之后的分词单元处的结束位置标签;
所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,还包括以下至少一种:
当连续多个已去除的标点符号为同一标点符号且标点符号之间仅有一个分词单元时,除最后一个所述标点符号外,在其他所述标点符号之前的分词单元处均仅标注对应的起始位置标签;
当连续两个已去除的标点符号之间不存在分词单元时,在每个分词单元之后添加间隔符号,并在已去除的前一个标点符号之前的分词单元处标注所述前一个标点符号对应的起始位置标签,在已去除的后一个标点符号之前的间隔符号和之后的分词单元处,分别标注所述后一个标点符号对应的起始位置标签和结束位置标签。
5.根据权利要求4所述的标点符号标注模型的训练方法,其特征在于,所述标点符号位置标签集合还包括:无标点符号对应的空白位置标签;
所述根据预设的标...
【专利技术属性】
技术研发人员:沈大框,陈培华,陈成才,
申请(专利权)人:上海智臻智能网络科技股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。