一种多模型融合的语料生成方法及装置制造方法及图纸

技术编号：28839999 阅读：15 留言：0更新日期：2021-06-11 23:38

本发明专利技术适用于自然语言处理技术领域，提供了一种多模型融合的语料生成方法及装置，通过首先采集待处理问题的训练文本集，接着构建unilm预训练数据集，然后通过Bert‑encoder获取sentence embedding计算相似度，并把相似度最高的问题的提供给人工标注，对人工标注数据集使用随机采样、分层采样，基于Transformer和unilm调整参数，然后接收的用户输入的问题并对预测出待扩充语料，根据模型的效果BLEAURT，获得待扩充的语料，最后生成多样性的扩充语料，获得最终语料扩充结果，本发明专利技术通过使用多种模型生成的方法融合，既保证了模型生成语料的语义连贯，又提高了生成语料的多样性，我们使用前沿的Transformers、UNILM算法，并基于理财教育行业的数据训练了预训练模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模型融合的语料生成方法及装置
本专利技术属于自然语言处理的
，尤其涉及一种多模型融合的语料生成方法及装置。
技术介绍
理财教育行业人工智能领域落地情况并不多，主要原因是自身行业数据缺少，又私密不方便开源，所以在理财教育行业文本生成或语料扩充上提出了要求。近年来NLP领域发展迅速，但是能落地到理财教育并取得较好效果的并不多，最前沿的文本生成算法在理财教育领域落地情况并不好。文本生成的难度相对其他NLP任务较大，既要保证语义的连贯，又要保证生成语料的多样性。
技术实现思路
本专利技术提供一种多模型融合的语料生成方法及装置，旨在解决现有技术存在的问题。本专利技术是这样实现的，一种多模型融合的语料生成方法，包括以下步骤：S1、采集待处理问题的训练文本集；S2、构建unilm预训练数据集；S3、通过Bert-encoder获取sentenceembedding计算相似度，并把相似度最高的前300个问题的提供给人工标注，标注待扩充问题的对应的相似问题，所述相似问题作为待补充问题的对应的扩充语料；S4、对人工标注数据集使用随机采样、分层采样，基于Transformer和unilm调整参数；S5、接收的用户输入的问题并对预测出待扩充语料，根据模型的效果BLEAURT，取BLEAURT大于预设数值的前30个的语料，获得待扩充的语料；S6、根据待扩充的语料生成对应的多样性的扩充语料，获得最终语料扩充结果。优选的，所述unilm...

【技术保护点】
1.一种多模型融合的语料生成方法及装置，其特征在于：包括以下步骤：/nS1、采集待处理问题的训练文本集；/nS2、构建unilm预训练数据集；/nS3、通过Bert-encoder获取sentence embedding计算相似度，并把相似度最高的前300个问题的提供给人工标注，标注待扩充问题的对应的相似问题，所述相似问题作为待补充问题的对应的扩充语料；/nS4、对人工标注数据集使用随机采样、分层采样，基于Transformer和unilm调整参数；/nS5、接收的用户输入的问题并对预测出待扩充语料，根据模型的效果BLEAURT，取BLEAURT大于预设数值的前30个的语料，获得待扩充的语料；/nS6、根据待扩充的语料生成对应的多样性的扩充语料，获得最终语料扩充结果。/n

【技术特征摘要】
1.一种多模型融合的语料生成方法及装置，其特征在于：包括以下步骤：
S1、采集待处理问题的训练文本集；
S2、构建unilm预训练数据集；
S3、通过Bert-encoder获取sentenceembedding计算相似度，并把相似度最高的前300个问题的提供给人工标注，标注待扩充问题的对应的相似问题，所述相似问题作为待补充问题的对应的扩充语料；
S4、对人工标注数据集使用随机采样、分层采样，基于Transformer和unilm调整参数；
S5、接收的用户输入的问题并对预测出待扩充语料，根据模型的效果BLEAURT，取BLEAURT大于预设数值的前30个的语料，获得待扩充的语料；
S6、根据待扩充的语料生成对应的多样性的扩充语料，获得最终语料扩充结果。

2.如权利要求1所述的一种多模型融合的语料生成方法，其特征在于：所述unilm预训练数据集包括1/3的BidirectionLM、1/3的L-to-R或R-to-LLM，1/3的Seq-to-SeqLM。

3.如权利要求1所述的一种多模型融合的语料生成方法，其特征在于：所述预设数值为0.7。

4.一种多模型融合的语料...

【专利技术属性】
技术研发人员：田东坡，巩乐，朱燕青，闵宇翔，
申请(专利权)人：上海昌投网络科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人