段落分割模型的训练方法及系统技术方案

技术编号:28321591 阅读:19 留言:0更新日期:2021-05-04 13:02
本发明专利技术实施例提供一种段落分割模型的训练方法。该方法包括:利用通用分段数据,对段落分割模型的神经网络模型进行预训练;基于领域分段数据,对预训练后的段落分割模型中与特征提取相关的编码层进行训练,得到适配领域的段落分割模型。本发明专利技术实施例还提供一种段落分割模型的训练系统。本发明专利技术实施例针对特定领域需要大量精标数据进行训练的问题,在大量易获取的通用分段数据上进行训练,最后在少量的领域精标数据上进行微调,如此可以有效降低领域适配的成本。针对上游标点模型输出敏感的问题。不仅提升了分段模型的鲁棒性,降低了模型对上游标点的依赖,同时可以纠错上游的标点输出。

【技术实现步骤摘要】
段落分割模型的训练方法及系统
本专利技术涉及智能语音领域,尤其涉及一种段落分割模型的训练方法及系统。
技术介绍
段落分割在如今的作用越来越大,例如将老师讲的课的录音转成文字,由于录音转成的文字是一大堆聚在一起的。通过段落分割可以在一堆文字里拆出多条段落,这样再复习观看时,具有段落边界看起来体验更好。目前市场上已有的:SVM(SupportVectorMachine,基于支持向量机)等传统机器学习方法的段落分割方法,LSTM(LongShort-TermMemory,基于长短期记忆网络)等神经网络的段落分割方法等。段落分割本质是一个分类任务,模型需要对篇章中的每个句子作出预测,是否需要在此句换行,以此完成文本的段落分割。基于SVM的段落分割方法,主要学习一个超平面,将分割句与非分割句在高纬空间分开。基于LSTM的段落分割方法,由以LSTM为代表的深度学习模型的编码器(Encoder)完成对文本特征的提取,并以此为依据,完成对每个句子是否需要换行的预测。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:1、领域适配的成本高。有段落分割信息的文本通常为规整的新闻稿,这类数据虽然规模客观同时容易获取。以此为基础训练的模型,在新领域的段落分割欠佳,需要人工标注相应领域的大量文本再训练。这由于训练模型中不包含任何文本处理的通用知识,只能依赖于大量的人工标注数据从零开始学习。2、对有上游的标点输出敏感。上游的标点模型在某些领域文本上性能欠佳,尤其是句号这类表结束的标点的F1值对下游的分段模型性能影响很大,即分段模型的鲁棒性差。
技术实现思路
为了至少解决现有技术中领域适配的成本高、对有上游的标点输出敏感的问题。第一方面,本专利技术实施例提供一种段落分割模型的训练方法,包括:利用通用分段数据,对所述段落分割模型的神经网络模型进行预训练;基于领域分段数据,对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练,得到适配领域的段落分割模型。第二方面,本专利技术实施例提供一种段落分割模型的训练系统,包括:模型预训练程序模块,用于利用通用分段数据,对所述段落分割模型的神经网络模型进行预训练;分割模型训练程序模块,用于基于领域分段数据,对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练,得到适配领域的段落分割模型。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的段落分割模型的训练方法的步骤。第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的段落分割模型的训练方法的步骤。本专利技术实施例的有益效果在于:针对特定领域需要大量精标数据进行训练的问题,我们使用诸如BERT等预训练模型,在大量易获取的通用分段数据上进行训练,最后在少量的领域精标数据上进行微调,如此可以有效降低领域适配的成本。针对上游标点模型输出敏感的问题,我们将分段信息与上游的标点输出做结合构造新的分段训练数据,并统计分段标记前的标点数量分布,以引入新的句子分割标点。不仅提升了分段模型的鲁棒性,降低了模型对上游标点的依赖,同时可以纠错上游的标点输出。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种段落分割模型的训练方法的流程图;图2是本专利技术一实施例提供的一种段落分割模型的训练方法的段落分割整体步骤流程图;图3是本专利技术一实施例提供的一种段落分割模型的训练方法的结构数据图;图4是本专利技术一实施例提供的一种段落分割模型的训练方法的分段模型对标点模型结果的纠错效果数据图;图5是本专利技术一实施例提供的一种段落分割模型的训练系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示为本专利技术一实施例提供的一种段落分割模型的训练方法的流程图,包括如下步骤:S11:利用通用分段数据,对所述段落分割模型的神经网络模型进行预训练;S12:基于领域分段数据,对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练,得到适配领域的段落分割模型。所述段落分割模型的神经网络模型中的与特征提取相关的编码层,和适配领域的段落分割模型的与特征提取相关的编码层是共享的,用于学习提取词法、句法、语法特征。在本实施方式中,现有的分段模型适配新领域对数据标注的需求量较大,主要是因为常规的训练方案中没有考虑到自然语言处理(NLP,NaturalLanguageProcessing)技术中底层对文本技术的特征提取部分是可以共享的。对于步骤S11,通用语料相对容易获得,以NLP中目前主流的神经网络Transformer为例,其网络结构一般有好几层,底层的编码层一般学习诸如词法、句法、语法等通用的语言学知识用于特征提取,而高层的编码层则学习与具体任务相关的知识。因此在某一个任务上使用海量数据训练的Transformer模型,其底层的编码层可以用于其他小数据的NLP任务上,以减轻训练开销。利用这种方式,利用海量的通用分段数据,对段落分割模型的神经网络模型进行预训练。作为一种实施方式,所述神经网络模型包括BERT模型。考虑到Transformer的编码器因为有自注意力机制,带有双向训练的功能。可以获取比词更高级别的句子级别的语义表征,为了适配多任务下的迁移学习,BERT设计了更通用的输入层和输出层。进一步地选择BERT模型原因为模型的微调成本小。对于步骤S12,还需要少量的领域分段数据对步骤S11训练后的段落分割模型中与特征提取相关的编码层(例如,上文中的底层的编码层)进行微调训练,这样就可以有效降低领域适配的成本。通过该实施方式可以看出,针对特定领域需要大量精标数据进行训练的问题,我们使用诸如BERT等预训练模型,在大量易获取的通用分段数据上进行训练,最后在少量的领域精标数据上进行微调,如此可以有效降低领域适配的成本。作为一种实施方式,在本实施例中,所述领域分段数据由上游标点模型和分段人工标注数据生成,包括:将原始领域数据输入至上游标点模型,得到分割后的领域标点数据;...

【技术保护点】
1.一种段落分割模型的训练方法,包括:/n利用通用分段数据,对所述段落分割模型的神经网络模型进行预训练;/n基于领域分段数据,对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练,得到适配领域的段落分割模型。/n

【技术特征摘要】
1.一种段落分割模型的训练方法,包括:
利用通用分段数据,对所述段落分割模型的神经网络模型进行预训练;
基于领域分段数据,对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练,得到适配领域的段落分割模型。


2.根据权利要求1所述的方法,其中,所述段落分割模型的神经网络模型中的与特征提取相关的编码层,和适配领域的段落分割模型的与特征提取相关的编码层是共享的,用于学习提取词法、句法、语法特征。


3.根据权利要求1所述的方法,其中,所述神经网络模型包括BERT模型。


4.根据权利要求1所述的方法,其中,所述领域分段数据由上游标点模型和分段人工标注数据生成,包括:
将原始领域数据输入至上游标点模型,得到分割后的领域标点数据;
接收人工对所述原始领域数据标注的分段人工标注数据;
基于所述分段人工标注数据中的标点种类,确定句子结束符号集合,用于对所述原始领域数据分割,得到分割后的人工领域标点数据;
基于所述领域标点数据以及人工领域标点数据,生成带有标点信息以及分段信息的领域分段数据。


5.根据权利要求4所述的方法,其中,在所述将原始领域数据输入至上游标点模型之...

【专利技术属性】
技术研发人员:秦文杰
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1