【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及一种基于文本的数据生成方法及装置。
技术介绍
1、随着自然语言处理技术的进步,各类语言模型不断涌现,在模型训练时,需要构建充足且质量高的样本数据。现有的大语言模型训练中,常需要大量的问题-答案对,问题和答案数据对于提升模型的问答和阅读理解能力极为重要。
2、目前,许多问答系统和语言模型的训练数据是通过人工生成或已有的问答数据库获取的。
3、然而,手动生成此类数据既耗时又耗力,且对专业知识有一定的依赖。
技术实现思路
1、本专利技术提供一种基于文本的数据生成方法及装置,用以解决现有技术中通过人工生成或通过问答数据库获取数据耗时耗力,且依赖于专业知识的缺陷,增强数据生成模型的阅读理解能力,提高模型的泛化能力。
2、本专利技术提供一种基于文本的数据生成方法,包括:
3、获取文本数据,基于预设的价值观和道德准则,对获取的文本数据进行筛选;
4、将筛选后的文本数据输入预训练的语言模型中,得到所述文本数据对
本文档来自技高网...【技术保护点】
1.一种基于文本的数据生成方法,其特征在于,包括:
2.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述基于所述文本数据对应的问答对,对数据生成模型进行训练之后,还包括:
3.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述将筛选后的文本数据输入预训练的语言模型中,得到所述文本数据对应的问答对,包括:
4.根据权利要求3所述的基于文本的数据生成方法,其特征在于,所述将提取的重要信息输入预先训练的问答模型中,得到对应的问答对,包括:
5.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述将
...【技术特征摘要】
1.一种基于文本的数据生成方法,其特征在于,包括:
2.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述基于所述文本数据对应的问答对,对数据生成模型进行训练之后,还包括:
3.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述将筛选后的文本数据输入预训练的语言模型中,得到所述文本数据对应的问答对,包括:
4.根据权利要求3所述的基于文本的数据生成方法,其特征在于,所述将提取的重要信息输入预先训练的问答模型中,得到对应的问答对,包括:
5.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述将筛选后的文本数据输入预训练的语言模型中,得到所述文本数据对应的问答对之后,还包括:
6.根据权...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:北京瑞莱智慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。