一种针对粗粒度文本分类的数据动态标注方法及装置制造方法及图纸

技术编号:22218974 阅读:40 留言:0更新日期:2019-09-30 01:17
本发明专利技术提供了一种针对粗粒度文本分类的数据动态标注方法及装置,其中方法包括:按照标签类别比例均衡标注数据;构建文本TF‑IDF词频矩阵;使用卡方分布进行特征筛选得到训练数据集;使用机器学习算法对训练数据集进行训练,得到初始模型;获取测试数据集,利用初始模型对测试数据集中的第一预设数据量的数据进行标注,得到预测标注数据;获取按照标签类别分别抽取预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据;将与各个数据标注标签对应的数据加入到训练数据集中,使用机器学习算法对训练数据集进行训练得到修正模型;判断训练数据量是否满足第二预设数据量,不满足继续执行上述流程;满足存储修正模型为预测模型。

A Data Dynamic Annotation Method and Device for Coarse-grained Text Classification

【技术实现步骤摘要】
一种针对粗粒度文本分类的数据动态标注方法及装置
本专利技术涉及数据标注
,尤其涉及一种针对粗粒度文本分类的数据动态标注方法及装置。
技术介绍
粗粒度文本分类即基于句子层面的分类方法。而对于常见粗粒度文本分类项目而言,皆是依托于监督学习的方式进行处理。因此,拥有良好质量的数据集是模型构建的基础。而传统数据标注的方式是依托于人工标注的行为产生的,这种处理方式容易造成如下错误:1、每个数据标注人员对于文本理解不同,从而导致文本数据标注产生偏差。2.每个标注人员由于存在先验知识,从而对于文本主题内容理解错误,从而类别标注错误。
技术实现思路
本专利技术旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的针对粗粒度文本分类的数据动态标注方法及装置。为达到上述目的,本专利技术的技术方案具体是这样实现的:本专利技术的一个方面提供了一种针对粗粒度文本分类的数据动态标注方法,包括:S1,按照标签类别比例均衡标注数据,其中,每一种标签对应的数据满足各自的预设条数;S2,构建文本TF-IDF词频矩阵;S3,使用卡方分布进行特征筛选,得到训练数据集;S4,使用机器学习算法对训练数据集进行训练,得到本文档来自技高网...

【技术保护点】
1.一种针对粗粒度文本分类的数据动态标注方法,其特征在于,包括:S1,按照标签类别比例均衡标注数据,其中,每一种标签对应的数据满足各自的预设条数;S2,构建文本TF‑IDF词频矩阵;S3,使用卡方分布进行特征筛选,得到训练数据集;S4,使用GBDT,Xgboost(学习率为0.01),随机森林,SVM,Xgboost(学习率为0.001)等机器学习模型作为基础模型,选取小样本数据集通过网格寻优调参确定5个最优基础模型。S5,获取测试数据集,利用所述初始模型对所述测试数据集中的第一预设数据量的数据进行标注,得到预测标注数据;S6,获取按照标签类别分别抽取所述预测标注数据中的第二预设条数进行审核得...

【技术特征摘要】
1.一种针对粗粒度文本分类的数据动态标注方法,其特征在于,包括:S1,按照标签类别比例均衡标注数据,其中,每一种标签对应的数据满足各自的预设条数;S2,构建文本TF-IDF词频矩阵;S3,使用卡方分布进行特征筛选,得到训练数据集;S4,使用GBDT,Xgboost(学习率为0.01),随机森林,SVM,Xgboost(学习率为0.001)等机器学习模型作为基础模型,选取小样本数据集通过网格寻优调参确定5个最优基础模型。S5,获取测试数据集,利用所述初始模型对所述测试数据集中的第一预设数据量的数据进行标注,得到预测标注数据;S6,获取按照标签类别分别抽取所述预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据;S7,将与各个所述数据标注标签对应的数据加入到所述训练数据集中,使用机器学习算法对所述训练数据集进行训练,得到修正模型;S8,判断训练数据量是否满足第二预设数据量,如果不满足,返回执行S5;如果满足,执行S9;S9,存储所述修正模型为预测模型。2.根据权利要求1所述的方法,其特征在于,所述构建文本TF-IDF词频矩阵包括:通过计算词频矩阵TF,其中,m表示某个词在某篇文章中出现的次数,n表示该文章的总词数;通过计算逆文档频率,其中,a表示语料库中文档个数,b表示包含该词的文档数目;通过TF-IDF=TF*IDF计算TF-IDF词频矩阵。3.根据权利要求1所述的方法,其特征在于,所述使用机器学习算法对所述训练数据集进行训练包括:对所述训练数据集进行数据切分,并与相应的标签集对齐,得到标签与对应训练数据的列表;获取所述标签集中的第i个标签对应的第i份训练数据,其中i=1,2,……N,N为标签个数,N≥1且为自然数;将所述第i份数据进行分割,得到K份数据,其中,所述K份数据中,将其中1份作为测试集,K-1份作为训练集,其中,K≥2且为自然数;设置K个机器学习模型作为基模型;每个所述基模型进行所述训练集上K折交叉处理,迭代K次,将每次生成的矩阵进行拼接,得到超特征矩阵;每个所述基模型对所述测试集进行预测,得到超特征测试集;将所述超特征矩阵作为新的训练集,将所述第i个标签作为标签进行训练,得到训练模型;利用所述训练模型对所述超特征测试集进行预测得到第i个所述数据标注标签;调整每个所述基模型的参数,重复执行上述步骤,确定最优模型。4.根据权利要求3所述的方法,其特征在于,所述最优模型在步骤S4中为所述初始模型;所述最优模型在步骤S7中为所述修正模型。5.根据权利要求1所述的方法,其特征在于,所述K为5。...

【专利技术属性】
技术研发人员:顾凌云严涵王洪阳
申请(专利权)人:成都冰鉴信息科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1