段落分割模型的训练方法及系统技术方案

技术编号：28321591 阅读：19 留言：0更新日期：2021-05-04 13:02

本发明专利技术实施例提供一种段落分割模型的训练方法。该方法包括：利用通用分段数据，对段落分割模型的神经网络模型进行预训练；基于领域分段数据，对预训练后的段落分割模型中与特征提取相关的编码层进行训练，得到适配领域的段落分割模型。本发明专利技术实施例还提供一种段落分割模型的训练系统。本发明专利技术实施例针对特定领域需要大量精标数据进行训练的问题，在大量易获取的通用分段数据上进行训练，最后在少量的领域精标数据上进行微调，如此可以有效降低领域适配的成本。针对上游标点模型输出敏感的问题。不仅提升了分段模型的鲁棒性，降低了模型对上游标点的依赖，同时可以纠错上游的标点输出。

全部详细技术资料下载

【技术实现步骤摘要】
段落分割模型的训练方法及系统
本专利技术涉及智能语音领域，尤其涉及一种段落分割模型的训练方法及系统。
技术介绍
段落分割在如今的作用越来越大，例如将老师讲的课的录音转成文字，由于录音转成的文字是一大堆聚在一起的。通过段落分割可以在一堆文字里拆出多条段落，这样再复习观看时，具有段落边界看起来体验更好。目前市场上已有的：SVM(SupportVectorMachine，基于支持向量机)等传统机器学习方法的段落分割方法，LSTM(LongShort-TermMemory，基于长短期记忆网络)等神经网络的段落分割方法等。段落分割本质是一个分类任务，模型需要对篇章中的每个句子作出预测，是否需要在此句换行，以此完成文本的段落分割。基于SVM的段落分割方法，主要学习一个超平面，将分割句与非分割句在高纬空间分开。基于LSTM的段落分割方法，由以LSTM为代表的深度学习模型的编码器(Encoder)完成对文本特征的提取，并以此为依据，完成对每个句子是否需要换行的预测。在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：1、领域适配的成本高。有段落分割信息的文本通常为规整的新闻稿，这类数据虽然规模客观同时容易获取。以此为基础训练的模型，在新领域的段落分割欠佳，需要人工标注相应领域的大量文本再训练。这由于训练模型中不包含任何文本处理的通用知识，只能依赖于大量的人工标注数据从零开始学习。2、对有上游的标点输出敏感。上游的标点模型在某些领域文本上性能欠佳，尤其是句号这类表结

【技术保护点】
1.一种段落分割模型的训练方法，包括：/n利用通用分段数据，对所述段落分割模型的神经网络模型进行预训练；/n基于领域分段数据，对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练，得到适配领域的段落分割模型。/n

【技术特征摘要】
1.一种段落分割模型的训练方法，包括：
利用通用分段数据，对所述段落分割模型的神经网络模型进行预训练；
基于领域分段数据，对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练，得到适配领域的段落分割模型。

2.根据权利要求1所述的方法，其中，所述段落分割模型的神经网络模型中的与特征提取相关的编码层，和适配领域的段落分割模型的与特征提取相关的编码层是共享的，用于学习提取词法、句法、语法特征。

3.根据权利要求1所述的方法，其中，所述神经网络模型包括BERT模型。

4.根据权利要求1所述的方法，其中，所述领域分段数据由上游标点模型和分段人工标注数据生成，包括：
将原始领域数据输入至上游标点模型，得到分割后的领域标点数据；
接收人工对所述原始领域数据标注的分段人工标注数据；
基于所述分段人工标注数据中的标点种类，确定句子结束符号集合，用于对所述原始领域数据分割，得到分割后的人工领域标点数据；
基于所述领域标点数据以及人工领域标点数据，生成带有标点信息以及分段信息的领域分段数据。

5.根据权利要求4所述的方法，其中，在所述将原始领域数据输入至上游标点模型之...

【专利技术属性】
技术研发人员：秦文杰，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人