标点符号标注模型及其训练方法、设备、存储介质技术

技术编号:23085453 阅读:23 留言:0更新日期:2020-01-11 01:17
标点符号标注模型及其训练方法、设备、存储介质,所述方法包括:获取包含标点符号的第一训练语料;将第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;获取包含标点符号的第二训练语料,将第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;将第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型,其中,标点符号标注模型包括预训练的语言子模型,第三训练语料包括无标点文本集合和标签序列集合。上述方案无需人工标注大量的训练数据,提高召回率,获得的标点符号标注模型具有较好的泛化能力及通用性。

Punctuation mark model and its training method, equipment and storage medium

【技术实现步骤摘要】
标点符号标注模型及其训练方法、设备、存储介质
本专利技术实施例涉及计算机自然语言处理
,尤其涉及一种标点符号标注模型及其训练方法、设备、存储介质。
技术介绍
现有的标点符号恢复的方案通常采用序列标注的方式,主要应用于恢复语音识别得到的文本的标点符号,一般只能增加简单的标点符号,如:逗号、句号。使用这种方式添加的标点,一方面准确度较低、泛化能力差;另一方面标注的标点丰富性差,给人造成很差的阅读体验。随着深度学习技术的不断发展,可以采用经过训练学习的神经网络模型预测语音识别得到的文本的标点符号,提高准确度。然而,神经网络模型的学习训练需要人工标注大量的训练数据,且现有训练方法获得的神经网络模型的召回率较低。此外,所采用的标点符号标注模型泛化能力弱、通用性差。
技术实现思路
有鉴于此,本专利技术实施例的一个方面,提供了一种标点符号标注模型的训练方法、设备、存储介质,无需人工标注大量的训练数据,并且可以提高召回率。本专利技术实施例的另一个方面,提供了一种标点符号标注模型,具有较好的泛化能力及通用性。本专利技术实施例提供了一种标点符号标注模型的训练方法,所述方法包括:获取包含标点符号的第一训练语料;将所述第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型;其中,所述标点符号标注模型包括:所述预训练的语言子模型,所述第三训练语料包括:无标点文本集合和标签序列集合,所述标签序列集合包括所述标签组合。可选地,所述获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料,包括:根据预设的标点符号集合,识别所述第二训练语料的标点符号;去除所述第二训练语料中的标点符号,获得相应的无标点文本集合,并根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,获得相应的标签序列集合。可选地,所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,包括以下至少一种:当已去除的标点符号前后均有分词单元时,根据所述标点符号位置标签集合对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合;当已去除的标点符号之前或之后有一处无分词单元时,在已去除的标点符号之前或之后添加空位补齐符号填补空缺分词单元的位置,再根据所述标点符号位置标签集合,对所述标点符号之后或之前的分词单元处及空位补齐符号标注相应位置关系的标签组合。可选地,所述标点符号位置标签集合包括:设置在各个标点符号之前的分词单元处的起始位置标签、设置在各个标点符号之后的分词单元处的结束位置标签;所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,还包括以下至少一种:当连续多个已去除的标点符号为同一标点符号且标点符号之间仅有一个分词单元时,除最后一个所述标点符号外,在其他所述标点符号之前的分词单元处均仅标注对应的起始位置标签;当连续两个已去除的标点符号之间不存在分词单元时,在每个分词单元之后添加间隔符号,并在已去除的前一个标点符号之前的分词单元处标注所述前一个标点符号对应的起始位置标签,在已去除的后一个标点符号之前的间隔符号和之后的分词单元处,分别标注所述后一个标点符号对应的起始位置标签和结束位置标签。可选地,所述标点符号位置标签集合还包括:无标点符号对应的空白位置标签;所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,还包括:当一个分词单元前后均无标点符号时,在所述分词单元处标注所述空白位置标签。可选地,所述标点符号标注模型还包括预设的条件随机场子模型;所述将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型,包括:从所述无标点文本集合获取一段无标点文本;从所述标签序列集合中获取所述无标点文本相应的第一标签序列;将所述无标点文本和所述第一标签序列输入所述标点符号标注模型,由所述预训练的语言子模型获取所述无标点文本相应的句子特征信息,并将所述句子特征信息输入所述条件随机场子模型中,预测所述无标点文本对应的第二标签序列;将所述第二标签序列与所述第一标签序列进行比较,确定二者之间的误差;确定所述误差是否大于预设的误差阈值,在确定所述误差大于所述误差阈值时,对所述标点符号标注模型的参数进行微调;在确定所述误差不大于所述误差阈值时,得到训练好的标点符号标注模型。可选地,所述获取包含标点符号的第一训练语料,包括以下至少一种:在互联网中抓取包含标点符号的文本数据;在互联网中抓取语言数据,并将所述语言数据经过语音识别和标注得到相应的文本数据;人工录入包含标点符号的文本数据;所述获取包含标点符号的第二训练语料,包括以下至少一种:抓取所述第一训练语料中的文本数据;在互联网中抓取预设领域的包含标点符号的文本数据;人工录入预设领域的包含标点符号的文本数据。本专利技术实施例还提供了一种标点符号标注模型,包括:输入层,适于获得无标点文本和相应的第一标签序列,并对所述无标点文本提取相应的分词单元特征信息;编码层,适于通过预训练的语言子模型捕获所述分词单元特征信息相应的句子特征信息,其中,所述预训练的语言子模型为具有时间序列的神经网络模型;条件随机场网络层,适于基于所述句子特征信息,预测所述无标点文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,得到所述无标点文本对应的第二标签序列,得到所述无标点文本对应的第二标签序列;输出层,适于在确定所述第二标签序列与所述第一标签序列的误差大于预设的误差阈值时,对所述标点符号标注模型的参数进行微调,在确定所述第二标签序列与所述第一标签序列的误差不大于所述误差阈值时,输出对应的标点符号标注结果。本专利技术实施例还提供了一种数据处理设备,包括存储器和处理器;其中,所述存储器适于存储一条或多条计算机指令,所述处理器运行所述计算机指令时执行上述任一实施例所述方法的步骤。本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一实施例所述方法的步骤。采用本专利技术实施例的标点符号标注模型的训练方案,将获取的包含标点符号的第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,可以获得预训练的语言子模型,同时,去除获取的包含标点符号的第二训练语料的标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,可以得到第三训练语料;将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,可以得到训练好的标点符号标本文档来自技高网...

【技术保护点】
1.一种标点符号标注模型的训练方法,其特征在于,包括:/n获取包含标点符号的第一训练语料;/n将所述第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;/n获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;/n将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型;/n其中,所述标点符号标注模型包括:所述预训练的语言子模型,所述第三训练语料包括:无标点文本集合和标签序列集合,所述标签序列集合包括所述标签组合。/n

【技术特征摘要】
1.一种标点符号标注模型的训练方法,其特征在于,包括:
获取包含标点符号的第一训练语料;
将所述第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;
获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;
将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型;
其中,所述标点符号标注模型包括:所述预训练的语言子模型,所述第三训练语料包括:无标点文本集合和标签序列集合,所述标签序列集合包括所述标签组合。


2.根据权利要求1所述的标点符号标注模型的训练方法,其特征在于,所述获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料,包括:
根据预设的标点符号集合,识别所述第二训练语料的标点符号;
去除所述第二训练语料中的标点符号,获得相应的无标点文本集合,并根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,获得相应的标签序列集合。


3.根据权利要求2所述的标点符号标注模型的训练方法,其特征在于,所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,包括以下至少一种:
当已去除的标点符号前后均有分词单元时,根据所述标点符号位置标签集合对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合;
当已去除的标点符号之前或之后有一处无分词单元时,在已去除的标点符号之前或之后添加空位补齐符号填补空缺分词单元的位置,再根据所述标点符号位置标签集合对所述标点符号之后或之前的分词单元处及空位补齐符号标注相应位置关系的标签组合。


4.根据权利要求2或3所述的标点符号标注模型的训练方法,其特征在于,所述标点符号位置标签集合包括:设置在各个标点符号之前的分词单元处的起始位置标签、设置在各个标点符号之后的分词单元处的结束位置标签;
所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,还包括以下至少一种:
当连续多个已去除的标点符号为同一标点符号且标点符号之间仅有一个分词单元时,除最后一个所述标点符号外,在其他所述标点符号之前的分词单元处均仅标注对应的起始位置标签;
当连续两个已去除的标点符号之间不存在分词单元时,在每个分词单元之后添加间隔符号,并在已去除的前一个标点符号之前的分词单元处标注所述前一个标点符号对应的起始位置标签,在已去除的后一个标点符号之前的间隔符号和之后的分词单元处,分别标注所述后一个标点符号对应的起始位置标签和结束位置标签。


5.根据权利要求4所述的标点符号标注模型的训练方法,其特征在于,所述标点符号位置标签集合还包括:无标点符号对应的空白位置标签;
所述根据预设的标...

【专利技术属性】
技术研发人员:沈大框陈培华陈成才
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利