【技术实现步骤摘要】
本申请属于人工智能领域,尤其涉及一种行业数据处理方法和装置。
技术介绍
1、随着人工智能内容生成技术的发展,往往需要基于行业数据生成行业指令。相关技术中存在基于专家级手工标注生成行业指令数据的方法,该方法生成行业指令数据的效率较低,需要耗费大量的人力成本,且在基于行业指令数据训练大规模语言模型时,手工标注的数据量难以满足大模型的需求,适用场景有限。
技术实现思路
1、本申请旨在至少解决相关技术中存在的技术问题之一。为此,本申请提出一种行业数据处理方法和装置,提高了生成行业知识指令数据的效率,节省了大量的专家级手工标注成本,能够有效解决现有行业大模型训练中行业指令数据不足的问题,拓宽了适用场景。
2、第一方面,本申请提供了一种行业数据处理方法,该方法包括:
3、获取目标行业下的多个目标文本数据;
4、将所述目标文本数据和问题需求信息基于第一目标格式输入至第一模型,获取所述第一模型输出的至少一个问题文本;
5、将所述至少一个问题文本、所述目标文本
...【技术保护点】
1.一种行业数据处理方法,其特征在于,包括:
2.根据权利要求1所述的行业数据处理方法,其特征在于,所述将所述目标文本数据和问题需求信息基于第一目标格式输入至第一模型,获取所述第一模型输出的至少一个问题文本,包括:
3.根据权利要求2所述的行业数据处理方法,其特征在于,所述问题生成模板基于如下步骤确定:
4.根据权利要求1-3任一项所述的行业数据处理方法,其特征在于,所述将所述至少一个问题文本、所述目标文本数据和答案需求信息基于第二目标格式输入至第二模型,获取所述第二模型输出的至少一个答案文本,包括:
5.根据权利要求1
...【技术特征摘要】
1.一种行业数据处理方法,其特征在于,包括:
2.根据权利要求1所述的行业数据处理方法,其特征在于,所述将所述目标文本数据和问题需求信息基于第一目标格式输入至第一模型,获取所述第一模型输出的至少一个问题文本,包括:
3.根据权利要求2所述的行业数据处理方法,其特征在于,所述问题生成模板基于如下步骤确定:
4.根据权利要求1-3任一项所述的行业数据处理方法,其特征在于,所述将所述至少一个问题文本、所述目标文本数据和答案需求信息基于第二目标格式输入至第二模型,获取所述第二模型输出的至少一个答案文本,包括:
5.根据权利要求1-3任一项所述的行业数据处理方法,其特征在于,所述答案生成模板基于如下步骤确定:
6.根...
【专利技术属性】
技术研发人员:黄宇恒,孙峥峥,黄跃珍,徐天适,何涛,
申请(专利权)人:广电运通集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。