训练数据的挖掘方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26172204 阅读:27 留言:0更新日期:2020-10-31 13:48
本申请公开了一种训练数据的挖掘方法、装置、电子设备及存储介质,涉及基于人工智能的自然语言处理技术领域。具体实现方案为:采集数条作为原始数据的无监督文本,构成原始数据集;获取预配置的数据筛选规则集合,该数据筛选规则集合中包括数条预先配置的数据筛选规则;根据数据筛选规则集合中的各数据筛选规则,从原始数据集中挖掘数条训练数据,构成训练数据集。与现有技术的人工标注训练数据相比,本申请可以自动地、智能化地挖掘到训练数据,而不需要人工标注训练数据,能够有效地节省训练数据的获取成本,提高训练数据的获取效率。

【技术实现步骤摘要】
训练数据的挖掘方法、装置、电子设备及存储介质
本申请涉及计算机
,尤其涉及基于人工智能的自然语言处理
,具体涉及一种训练数据的挖掘方法、装置、电子设备及存储介质。
技术介绍
近年来,以基于Transformer的双向编码器表示(BidirectionalEncoderRepresentationfromTransformers;BERT)模型为代表的预训练模型提出了“预训练(Pre-training)+精调(Fine-tuning)”两阶段的训练范式,来训练模型,大幅提升了各类自然语言处理(NaturalLanguageProcessing;NLP)任务的效果。BERT模型采用深层Transformer模型结构,使用海量无监督文本学习上下文相关表示,并使用通用统一的方式解决各类NLP任务如文本匹配、文本生成、情感分类、文本摘要、问答以及检索等。其中,Pre-training指的是利用海量的无标注文本作为训练数据,构造自监督的学习任务,如完形填空,句子排序等。Fine-tuning指的是了利用少量的有人工标注的任务文本作为训练本文档来自技高网...

【技术保护点】
1.一种训练数据的挖掘方法,其中,所述方法包括:/n采集数条作为原始数据的无监督文本,构成原始数据集;/n获取预配置的数据筛选规则集合,所述数据筛选规则集合中包括数条预先配置的数据筛选规则;/n根据所述数据筛选规则集合中的各所述数据筛选规则,从所述原始数据集中挖掘数条训练数据,构成训练数据集。/n

【技术特征摘要】
1.一种训练数据的挖掘方法,其中,所述方法包括:
采集数条作为原始数据的无监督文本,构成原始数据集;
获取预配置的数据筛选规则集合,所述数据筛选规则集合中包括数条预先配置的数据筛选规则;
根据所述数据筛选规则集合中的各所述数据筛选规则,从所述原始数据集中挖掘数条训练数据,构成训练数据集。


2.根据权利要求1所述的方法,其中,根据所述数据筛选规则集合中的各所述数据筛选规则,从所述原始数据集中挖掘数条训练数据之后,所述方法还包括:
采用预先训练的语义表示模型和近似最近邻检索算法,从所述原始数据集中获取与所述数条训练数据中各所述训练数据最相近的相似数据;
将各所述最相近的相似数据,作为扩展的训练数据,加入所述训练数据集中。


3.根据权利要求2所述的方法,其中,将各所述最相近的相似数据,作为扩展的训练数据,加入所述训练数据集中之前,所述方法还包括:
判断并确定各所述最相近的相似数据与对应的所述训练数据的相似度大于预设相似度阈值。


4.根据权利要求1-3任一所述的方法,其中,所述方法还包括:
采用所述训练数据集中的各所述训练数据,训练目标模型。


5.根据权利要求4所述的方法,其中,采用所述训练数据集中的各所述训练数据,训练目标模型之后,所述方法还包括:
采用所述目标模型,预测所述原始数据集中所述训练数据集之外的剩余数据集中各所述原始数据的标签以及预测概率;
根据各所述原始数据、各所述原始数据的标签及对应的所述预测概率、和预设概率阈值,从所述剩余数据集中挖掘所述预测概率大于所述预设概率阈值的所述原始数据,并和所述原始数据的标签一起作为扩展的训练数据,加入所述训练数据集中。


6.根据权利要求5所述的方法,其中,根据各所述原始数据、各所述原始数据的标签及对应的所述预测概率、和预设概率阈值,从所述剩余数据集中挖掘所述预测概率大于所述预设概率阈值的所述原始数据,并和所述原始数据的标签一起作为扩展的训练数据,加入所述训练数据集中之后,所述方法还包括:
采用扩展后的所述训练数据集,再次训练所述目标模型,直至所述目标模型的准确率达到预设准确率阈值。


7.一种训练数据的挖掘装置,其中,所述装置包括:
采集模块,用于采集数...

【专利技术属性】
技术研发人员:王硕寰庞超孙宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1