一种样本筛选方法、装置及电子设备制造方法及图纸

技术编号:32199822 阅读:25 留言:0更新日期:2022-02-08 16:06
本发明专利技术提供了一种样本筛选方法、装置及电子设备,其中该方法包括:对文本语料进行聚类得到k个大类;根据两两小类之间的相似度对每一个大类中任意一个小类进行样本筛选得到相应小类的正样本和负样本;按照预设的正负样本比例对正样本和负样本进行训练得到初始样本二分类模型及相应的F1值;根据F1值确定小类的最优正负样本比例。本发明专利技术通过利用小类之间的相似度对小类进行样本筛选得到相应小类的正负样本,并对相应小类的正负样本进行训练得到F1值,最后基于F1值确定小类的最优正负样本比例,可以大大提高后续文本意图类别的二分类模型的识别精度。型的识别精度。型的识别精度。

【技术实现步骤摘要】
一种样本筛选方法、装置及电子设备


[0001]本专利技术涉及样本筛选
,具体而言,涉及一种样本筛选方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着自然语言技术的不断发展,智能音箱,智能机器人,语音助手,自动客服等越来越多的智能问答系统在生活中发挥越来越重要作用。在智能问答场景中,分为任务型对话,问答型对话,闲聊型对话,涵盖这些业务场景的意图有很多种类型,所以需要训练超多类别的意图分类模型,完成对客户回复内容的意图识别。现有对意图分类模型识别精度的提升仅仅是扩大训练样本的数据量,但是单方面扩大数据量会导致数据分布不均衡,不能大幅度提升意图分类模型的识别精度。因此如何快速筛选出一个可以训练出较高性能的意图分类模型的数据集,是当前需要解决的问题。

技术实现思路

[0003]为解决上述问题,本专利技术实施例的目的在于提供一种样本筛选方法、装置、电子设备及计算机可读存储介质。
[0004]一种样本筛选方法,包括:步骤1:获取文本语料;步骤2:对所述文本语料进行聚类得到k个大类;所述k个大类中的每个大类包本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种样本筛选方法,其特征在于,包括:步骤1:获取文本语料;步骤2:对所述文本语料进行聚类得到k个大类;所述k个大类中的每个大类包括一个或多个小类;所述小类为相应文本语料所属的文本意图类别;步骤3:根据两两小类之间的相似度对每一个大类中任意一个小类进行样本筛选得到相应小类的正样本和负样本;步骤4:按照预设的正负样本比例对所述正样本和所述负样本进行训练得到初始样本二分类模型及相应的F1值;步骤5:根据所述F1值确定所述小类的最优正负样本比例;步骤6:返回所述步骤3直到确定每个大类中相应小类的最优正负样本比例;步骤7:根据每个大类中相应小类的最优正负样本比例筛选出所有文本意图类别的正负样本集,对所述正负样本集进行训练得到相应文本意图类别的二分类模型。2.根据权利要求1所述的一种样本筛选方法,其特征在于,所述步骤3:根据所述相似度对每一个大类中任意一个小类进行样本筛选得到相应小类的正样本和负样本,包括:步骤3.1:对所述小类进行预处理得到正样本;步骤3.2:判断所述小类是否与其他小类在同一个大类中;步骤3.3:若所述小类与所述其他小类在同一个大类中,则利用相似度权重公式确定所述其他小类的样本抽取权重;步骤3.4:若所述小类与所述其他小类不在同一个大类中,则将所述其他小类的样本抽取权重设定为预设值;步骤3.5:根据所述样本抽取权重抽取相应其他小类中的文本语料,并将所述其他小类中的文本语料作为负样本。3.根据权利要求2所述的一种样本筛选方法,其特征在于,所述相似度权重公式为:;其中,b表示其他小类b的样本抽取权重,表示其他小类b与小类a之间的相似度,所述小类a为每一个大类中任意一小类。4.根据权利要求1所述的一种样本筛选方法,其特征在于,所述步骤5:根据所述F1值确定所述小类的最优正负样本比例,包括:步骤5.1:将预设的正负样本比例作为x轴数据,将所述F1值作为y轴数据构建平面直角坐标系;步骤5.2:对所述平面直角坐标系上的点进行拟合得到样本筛选曲线;步骤5.3:根据所述样本筛选曲线上的斜率确定最优正负样本比例。5.根据权利要求4所述的一种样本筛选方法,其特征在于,所述步骤5.3:根据所述样本筛选曲线上的斜率确定最优正负样本比例,包括:获取所述样本筛选曲线上的斜率值小于预设斜率的点,根据所述点的横坐标确定最优正负样本比例。6.一种样本筛选装置,其特征在于,包括:文本语料获取模块,用...

【专利技术属性】
技术研发人员:杨馥临张献涛林小俊支涛
申请(专利权)人:北京云迹科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1