一种训练样本生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：23343565 阅读：21 留言：0更新日期：2020-02-15 03:57

本发明专利技术提供了一种训练样本生成方法，包括：获取待处理的初始文本数据；对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词；根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本；通过所述目标文本对相应的文本处理模型进行训练；根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本。本发明专利技术还提供了训练样本生成装置、电子设备及存储介质。本发明专利技术能够实现提升训练样本的针对性，使其更适用于机器阅读理解任务，同时提高了对特定业务领域的神经网络模型的识别精准度、增强其鲁棒性。

A training sample generation method, device, electronic equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种训练样本生成方法、装置、电子设备及存储介质
本专利技术涉及机器学习技术，尤其涉及一种训练样本生成方法、装置、电子设备及存储介质。
技术介绍
现有技术中，随着机器学习技术的发展，机器阅读可以通过BERT(BidirectionalEncoderRepresentationsfromTransformers，源于Transformers的双向编码器)机制实现，在使用BERT对应的模型对文本数据进行处理的过程中，可以将文本数据拆分成一个一个的字符，然后，将每一个字符依次输入到BERT对应的模型中，得到相应的输出结果。但是这一过程中，存在着针对开放领域训练得到的模型在特定领域表现不佳的缺陷(准确率较低、鲁棒性较差)，以及面向特定领域机器阅读理解任务的训练数据资源缺乏的问题。
技术实现思路
有鉴于此，本专利技术实施例提供一种训练样本生成方法、装置、电子设备及存储介质，能够利用与针对指定业务的目标文本；通过目标文本对相应的文本处理模型进行训练；根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本。提升了训练样本的针对性，使其更适用于机器阅读理解任务，同时提高了对特定业务领域的神经网络模型的识别精准度、增强其鲁棒性。本专利技术实施例的技术方案是这样实现的：本专利技术实施例提供了一种训练样本生成方法，所述方法包括：获取待处理的初始文本数据；对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词；根据与所述...

【技术保护点】
1.一种训练样本生成方法，其特征在于，所述方法包括：/n获取待处理的初始文本数据；/n对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词；/n根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本；/n通过所述目标文本对相应的文本处理模型进行训练；/n根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本。/n

【技术特征摘要】
1.一种训练样本生成方法，其特征在于，所述方法包括：
获取待处理的初始文本数据；
对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词；
根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本；
通过所述目标文本对相应的文本处理模型进行训练；
根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本。

2.根据权利要求1所述的方法，其特征在于，所述对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词，包括：
确定与所述文本处理模型的使用环境相匹配的动态噪声阈值；
根据所述动态噪声阈值对所述目标文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的第一分词策略；
根据与所述动态噪声阈值相匹配的第一分词策略，对所述初始文本进行分词处理，形成与所述初始文本相匹配的关键词；或者
确定与所述文本处理模型相对应的固定噪声阈值；
根据所述固定噪声阈值对所述目标文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的第二分词策略；
根据与所述固定噪声阈值相匹配的第二分词策略，对所述初始文本进行分词处理，形成与所述初始文本相匹配的关键词。

3.根据权利要求2所述的方法，其特征在于，所述根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本，包括：
根据所述指定业务的业务类型确定与所述指定业务相匹配的业务类型关键词；
根据与所述初始文本数据相匹配的关键词和所述业务类型关键词的匹配结果，对初始文本进行筛选，形成针对指定业务的目标文本。

4.根据权利要求1所述的方法，其特征在于，所述根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本，包括：
对所述文本处理模型的训练结果进行语句级处理，形成相应的语句级文本向量；
根据所述语句级文本向量的对应关系，确定相应的第一语句级文本向量对集合；
对所述第一语句级文本向量对集合中的语句对元素进行随机组合处理，形成第...

【专利技术属性】
技术研发人员：闫昭，张士卫，张倩汶，饶孟良，曹云波，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人