一种训练样本生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23343565 阅读:21 留言:0更新日期:2020-02-15 03:57
本发明专利技术提供了一种训练样本生成方法,包括:获取待处理的初始文本数据;对所述初始文本数据进行分词处理,以形成与所述初始文本数据相匹配的关键词;根据与所述初始文本数据相匹配的关键词对初始文本进行筛选,以形成针对指定业务的目标文本;通过所述目标文本对相应的文本处理模型进行训练;根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理,以形成针对指定业务的训练样本。本发明专利技术还提供了训练样本生成装置、电子设备及存储介质。本发明专利技术能够实现提升训练样本的针对性,使其更适用于机器阅读理解任务,同时提高了对特定业务领域的神经网络模型的识别精准度、增强其鲁棒性。

A training sample generation method, device, electronic equipment and storage medium

【技术实现步骤摘要】
一种训练样本生成方法、装置、电子设备及存储介质
本专利技术涉及机器学习技术,尤其涉及一种训练样本生成方法、装置、电子设备及存储介质。
技术介绍
现有技术中,随着机器学习技术的发展,机器阅读可以通过BERT(BidirectionalEncoderRepresentationsfromTransformers,源于Transformers的双向编码器)机制实现,在使用BERT对应的模型对文本数据进行处理的过程中,可以将文本数据拆分成一个一个的字符,然后,将每一个字符依次输入到BERT对应的模型中,得到相应的输出结果。但是这一过程中,存在着针对开放领域训练得到的模型在特定领域表现不佳的缺陷(准确率较低、鲁棒性较差),以及面向特定领域机器阅读理解任务的训练数据资源缺乏的问题。
技术实现思路
有鉴于此,本专利技术实施例提供一种训练样本生成方法、装置、电子设备及存储介质,能够利用与针对指定业务的目标文本;通过目标文本对相应的文本处理模型进行训练;根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理,以形成针对指定业务的训练样本。提升了训练样本的针对性,使其更适用于机器阅读理解任务,同时提高了对特定业务领域的神经网络模型的识别精准度、增强其鲁棒性。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种训练样本生成方法,所述方法包括:获取待处理的初始文本数据;对所述初始文本数据进行分词处理,以形成与所述初始文本数据相匹配的关键词;根据与所述初始文本数据相匹配的关键词对初始文本进行筛选,以形成针对指定业务的目标文本;通过所述目标文本对相应的文本处理模型进行训练;根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理,以形成针对指定业务的训练样本。本专利技术还提供了一种训练样本生成装置,所述装置包括:信息传输模块,获取待处理的初始文本数据;信息处理模块,用于对所述初始文本数据进行分词处理,以形成与所述初始文本数据相匹配的关键词;所述信息处理模块,用于根据与所述初始文本数据相匹配的关键词对初始文本进行筛选,以形成针对指定业务的目标文本;所述信息处理模块,用于通过所述目标文本对相应的文本处理模型进行训练;所述信息处理模块,用于根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理,以形成针对指定业务的训练样本。上述方案中,所述信息处理模块,用于确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;所述信息处理模块,用于根据所述动态噪声阈值对所述目标文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的第一分词策略;所述信息处理模块,用于根据与所述动态噪声阈值相匹配的第一分词策略,对所述初始文本进行分词处理,形成与所述初始文本相匹配的关键词;或者所述信息处理模块,用于确定与所述文本处理模型相对应的固定噪声阈值;所述信息处理模块,用于根据所述固定噪声阈值对所述目标文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的第二分词策略;所述信息处理模块,用于根据与所述固定噪声阈值相匹配的第二分词策略,对所述初始文本进行分词处理,形成与所述初始文本相匹配的关键词。上述方案中,所述信息处理模块,用于根据所述指定业务的业务类型确定与所述指定业务相匹配的业务类型关键词;所述信息处理模块,用于根据与所述初始文本数据相匹配的关键词和所述业务类型关键词的匹配结果,对初始文本进行筛选,形成针对指定业务的目标文本。上述方案中,所述信息处理模块,用于对所述文本处理模型的训练结果进行语句级处理,形成相应的语句级文本向量;所述信息处理模块,用于根据所述语句级文本向量的对应关系,确定相应的第一语句级文本向量对集合;所述信息处理模块,用于对所述第一语句级文本向量对集合中的语句对元素进行随机组合处理,形成第二语句级文本向量对集合。上述方案中,所述信息处理模块,用于根据对所述目标文本的领域数据增广处理结果,确定相应的问题文本与对应的答复参考文本;所述信息处理模块,用于对所述目标文本进行任务数据增广处理,形成相应的多个答复参考文本;所述信息处理模块,用于对所述问题文本与所述多个答复参考文本进行组合,形成语句级文本向量对集合,以实现获得针对指定业务的训练样本。上述方案中,所述信息处理模块,用于确定与所述文本处理模型相匹配的文本窗口与步长参数;所述信息处理模块,用于根据所述文本窗口与步长参数,对所述答复参考文本进行组合处理,形成与所述文本处理模型相匹配的多个答复参考文本。上述方案中,所述信息处理模块,用于当所述目标文本的领域数据增广处理结果为无数据时,触发特定答案增广进程;所述信息处理模块,用于响应于所述特定答案增广进程对所述指定业务的目标文本中的关键词进行词语级的文本替换,以实现获得针对指定业务的训练样本。本专利技术实施例还提供了一种电子设备,所述电子设备包括:存储器,用于存储可执行指令;处理器,用于运行所述存储器存储的可执行指令时,实现前序的训练样本生成方法。本专利技术实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的训练样本生成方法。本专利技术实施例具有以下有益效果:通过获取待处理的初始文本数据;对所述初始文本数据进行分词处理,以形成与所述初始文本数据相匹配的关键词;根据与所述初始文本数据相匹配的关键词对初始文本进行筛选,以形成针对指定业务的目标文本;通过所述目标文本对相应的文本处理模型进行训练;根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理,以形成针对指定业务的训练样本,由此实现了提升了训练样本的针对性,使其更适用于机器阅读理解任务,同时提高了对特定业务领域的神经网络模型的识别精准度、增强其鲁棒性。附图说明图1为本专利技术实施例提供的训练样本生成方法的使用场景示意图;图2为本专利技术实施例提供的训练样本生成装置的组成结构示意图;图3为现有技术中,基于RNN的Seq2Seq模型生成文本阅读结果的示意图;图4为本专利技术实施例提供的训练样本生成方法一个可选的流程示意图;图5为本专利技术实施例中文本处理模型一个可选的结构示意图;图6为本专利技术实施例中文本处理模型一个可选的词语级机器阅读示意图;图7本专利技术实施例中文本处理模型中编码器的向量示意图;图8为本专利技术实施例中文本处理模型中编码器的向量拼接示意图;图9为本专利技术实施例中文本处理模型中编码器的编码过程示意图;图10为本专利技术实施例中文本处理模型中解码器的解码过程示意图;图11为本专利技术实施例中文本处理模型中解码器的解码过程示意图;图12为本专利技术实施例中文本处理模型中解码器的解码过程示意图;图13为本专利技术实施例中文本处理模型一个可选的本文档来自技高网...

【技术保护点】
1.一种训练样本生成方法,其特征在于,所述方法包括:/n获取待处理的初始文本数据;/n对所述初始文本数据进行分词处理,以形成与所述初始文本数据相匹配的关键词;/n根据与所述初始文本数据相匹配的关键词对初始文本进行筛选,以形成针对指定业务的目标文本;/n通过所述目标文本对相应的文本处理模型进行训练;/n根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理,以形成针对指定业务的训练样本。/n

【技术特征摘要】
1.一种训练样本生成方法,其特征在于,所述方法包括:
获取待处理的初始文本数据;
对所述初始文本数据进行分词处理,以形成与所述初始文本数据相匹配的关键词;
根据与所述初始文本数据相匹配的关键词对初始文本进行筛选,以形成针对指定业务的目标文本;
通过所述目标文本对相应的文本处理模型进行训练;
根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理,以形成针对指定业务的训练样本。


2.根据权利要求1所述的方法,其特征在于,所述对所述初始文本数据进行分词处理,以形成与所述初始文本数据相匹配的关键词,包括:
确定与所述文本处理模型的使用环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述目标文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的第一分词策略;
根据与所述动态噪声阈值相匹配的第一分词策略,对所述初始文本进行分词处理,形成与所述初始文本相匹配的关键词;或者
确定与所述文本处理模型相对应的固定噪声阈值;
根据所述固定噪声阈值对所述目标文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的第二分词策略;
根据与所述固定噪声阈值相匹配的第二分词策略,对所述初始文本进行分词处理,形成与所述初始文本相匹配的关键词。


3.根据权利要求2所述的方法,其特征在于,所述根据与所述初始文本数据相匹配的关键词对初始文本进行筛选,以形成针对指定业务的目标文本,包括:
根据所述指定业务的业务类型确定与所述指定业务相匹配的业务类型关键词;
根据与所述初始文本数据相匹配的关键词和所述业务类型关键词的匹配结果,对初始文本进行筛选,形成针对指定业务的目标文本。


4.根据权利要求1所述的方法,其特征在于,所述根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理,以形成针对指定业务的训练样本,包括:
对所述文本处理模型的训练结果进行语句级处理,形成相应的语句级文本向量;
根据所述语句级文本向量的对应关系,确定相应的第一语句级文本向量对集合;
对所述第一语句级文本向量对集合中的语句对元素进行随机组合处理,形成第...

【专利技术属性】
技术研发人员:闫昭张士卫张倩汶饶孟良曹云波
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1