System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及一种基于文本的数据生成方法及装置。
技术介绍
1、随着自然语言处理技术的进步,各类语言模型不断涌现,在模型训练时,需要构建充足且质量高的样本数据。现有的大语言模型训练中,常需要大量的问题-答案对,问题和答案数据对于提升模型的问答和阅读理解能力极为重要。
2、目前,许多问答系统和语言模型的训练数据是通过人工生成或已有的问答数据库获取的。
3、然而,手动生成此类数据既耗时又耗力,且对专业知识有一定的依赖。
技术实现思路
1、本专利技术提供一种基于文本的数据生成方法及装置,用以解决现有技术中通过人工生成或通过问答数据库获取数据耗时耗力,且依赖于专业知识的缺陷,增强数据生成模型的阅读理解能力,提高模型的泛化能力。
2、本专利技术提供一种基于文本的数据生成方法,包括:
3、获取文本数据,基于预设的价值观和道德准则,对获取的文本数据进行筛选;
4、将筛选后的文本数据输入预训练的语言模型中,得到所述文本数据对应的问答对;
5、基于所述文本数据对应的问答对,对数据生成模型进行训练,所述数据生成模型用于生成文本数据对应的符合预设价值观和道德准则的答案;
6、将待生成数据的文本输入训练后的数据生成模型中,得到所述待生成数据的文本的输出结果。
7、根据本专利技术提供的基于文本的数据生成方法,所述基于所述文本数据对应的问答对,对数据生成模型进行训练之后,还包括:
9、将进行校正和引导后的输出数据集输入所述数据生成模型中,对所述数据生成模型进行迭代训练。
10、根据本专利技术提供的基于文本的数据生成方法,所述将筛选后的文本数据输入预训练的语言模型中,得到所述文本数据对应的问答对,包括:
11、对筛选后的文本数据进行切分处理,得到各文本数据对应的分句及段落;
12、基于所述分句及段落,提取各所述文本的重要信息;
13、将提取的重要信息输入预先训练的问答模型中,得到对应的问答对,所述问答对包括所述重要信息对应的问题、所述问题对应的正确答案及错误答案。
14、根据本专利技术提供的基于文本的数据生成方法,所述将提取的重要信息输入预先训练的问答模型中,得到对应的问答对,包括:
15、基于给大模型直接提供的指令描述得到对应的问题;或,
16、基于基础数据的文段切分,针对基础数据文段中提到的内容生成与其相关的问题。
17、根据本专利技术提供的基于文本的数据生成方法,所述将筛选后的文本数据输入预训练的语言模型中,得到所述文本数据对应的问答对之后,还包括:
18、为每个生成的问答对提供标签,正确答案的标签为正,错误答案的标签为负。
19、根据本专利技术提供的基于文本的数据生成方法,所述基于预设的价值观和道德准则,对获取的文本数据进行筛选,包括:
20、明确人类友善、公正、非暴力价值观的具体定义和范围,得到预设价值观和道德准则;
21、将获取的文本数据与设定的价值观和道德准则进行比对,去除不符合设定的价值观和道德准则的文本数据,将符合设定的价值观和道德准则的文本数据构建为样本数据集。
22、根据本专利技术提供的基于文本的数据生成方法,所述基于所述文本数据对应的问答对,对数据生成模型进行训练,包括:
23、将标签为正的问答对和标签为负的问答对设置不同的权重;
24、基于不同权重的问答对,通过有监督的学习方法对数据生成模型中进行训练,使模型能够更好地理解和鉴别正确与错误的答案。
25、可选地,所述有监督的学习方法包括端到端训练、迁移学习。
26、可选地,在所述基于预设的价值观和道德准则,对获取的文本数据进行筛选之前,需要对获取的文本数据进行预处理,所述预处理,包括对所述文本数据进行清洗和结构化处理。
27、可选地,所述结构化处理,包括:
28、使用分词工具将文本数据转换为词向量,所述词向量的计算采用以下公式:
29、
30、其中,v(ω)为词ω的向量;u为词ω上下文中的词;c(u)表示词u在上下文中的权重或计数,代表词u在上下文中出现的频率或重要性;c为上下文,q(u)为上下文中词u的向量。
31、可选地,使用分词工具将文本数据转换为词向量,包括:
32、将文本数据输入分词工具,得到文本数据对应的分词;
33、将文本数据对应的分词输入向量转换工具,得到各分词对应的向量。
34、本专利技术还提供一种基于文本的数据生成装置,包括:
35、获取模块,用于获取文本数据,基于预设的价值观和道德准则,对获取的文本数据进行筛选;
36、数据集构建模块,用于将筛选后的文本数据输入预训练的语言模型中,得到所述文本数据对应的问答对;
37、训练模块,用于基于所述文本数据对应的问答对,对数据生成模型进行训练,所述数据生成模型用于生成文本数据对应的符合预设价值观和道德准则的答案;
38、输出模块,用于将待生成数据的文本输入训练后的数据生成模型中,得到所述待生成数据的文本的输出结果。
39、可选地,所述训练模块,还用于根据预设的价值观和道德准则,对模型的输出数据集进行校正和引导;将进行校正和引导后的输出数据集输入所述数据生成模型中,对所述数据生成模型进行迭代训练。
40、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于文本的数据生成方法。
41、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于文本的数据生成方法。
42、本专利技术提供的基于文本的数据生成方法及装置,基于真实文本的大量问题-答案对,训练模型的阅读理解能力;应用多种监督学习方法,确保模型能够准确理解和解答输入的问题;通过多轮迭代、验证和调整,进一步提高模型的阅读理解能力。本专利技术还利用生成的问题,正确答案及错误答案,调整模型的价值观,确保训练数据符合设定的价值观和道德准则;根据预设的价值观和道德准则对模型的输出进行校正和引导;通过反复迭代,监控模型输出,发现和修正不符合预设价值观和道德准则的部分,从而使模型的输出更符合人类社会的期望。
本文档来自技高网...【技术保护点】
1.一种基于文本的数据生成方法,其特征在于,包括:
2.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述基于所述文本数据对应的问答对,对数据生成模型进行训练之后,还包括:
3.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述将筛选后的文本数据输入预训练的语言模型中,得到所述文本数据对应的问答对,包括:
4.根据权利要求3所述的基于文本的数据生成方法,其特征在于,所述将提取的重要信息输入预先训练的问答模型中,得到对应的问答对,包括:
5.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述将筛选后的文本数据输入预训练的语言模型中,得到所述文本数据对应的问答对之后,还包括:
6.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述基于预设的价值观和道德准则,对获取的文本数据进行筛选,包括:
7.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述基于所述文本数据对应的问答对,对数据生成模型进行训练,包括:
8.一种基于文本的数据生成装置,其特征在于,包括
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于文本的数据生成方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于文本的数据生成方法。
...【技术特征摘要】
1.一种基于文本的数据生成方法,其特征在于,包括:
2.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述基于所述文本数据对应的问答对,对数据生成模型进行训练之后,还包括:
3.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述将筛选后的文本数据输入预训练的语言模型中,得到所述文本数据对应的问答对,包括:
4.根据权利要求3所述的基于文本的数据生成方法,其特征在于,所述将提取的重要信息输入预先训练的问答模型中,得到对应的问答对,包括:
5.根据权利要求1所述的基于文本的数据生成方法,其特征在于,所述将筛选后的文本数据输入预训练的语言模型中,得到所述文本数据对应的问答对之后,还包括:
6.根据权...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:北京瑞莱智慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。