面向数据分布变化的文本分类模型调整方法技术

技术编号:26791152 阅读:24 留言:0更新日期:2020-12-22 17:06
本发明专利技术揭示了一种面向数据分布变化的文本分类模型调整方法,能够根据数据分布情况的变化,先对在线文本数据流进行标签预测,而后通过相似度计算和价值筛选,分类进行人工标注,采用对抗的训练样本数据集分别迭代训练判别网络,动态地对已训练好的识别网络模型进行调整和更新,使得离线模型自适应在线系统数据特征发生变化的情况;同时针对完全手动标注样本困难的情况提供一种有效的半自动化标注数据方法,对于文本分类技术的实际应用效果具有积极作用。

【技术实现步骤摘要】
面向数据分布变化的文本分类模型调整方法
本专利技术涉及一种文本数据分类及模型更新方法,尤其涉及面向数据分布变化的文本分类模型适应性调整方法,属于网络数据处理

技术介绍
随着互联网的发展和普及,网络的文本数据日益增长,采用文本分类技术在海量数据中及时准确地获得有效信息显得尤为重要。2014年互联网用户达到24亿,截止2019年6月,互联网用户超过44亿,在短短的五年内,使用互联网的人数增加了83%。以微博为例,2018年底的微博月活跃用户增至4.62亿,日均文字发布量高达1.3亿条。面对海量的数据,单纯的人工管理归纳不同类别的信息在时间上、经济上的成本都很大。越来越多的应用开始采取自动的文本分类技术,包括垃圾评论识别、黄反识别、新闻分类、情感分析等,文本分类技术在大数据背景下,正处于高速发展时期。文本分类是自然语言处理领域的一个经典问题,相关研究最早可以追溯到50年代专家规则的模式识别。后来伴随着统计学习方法的发展,特别是90年代后在线文本数量增长和机器学习学科的兴起,逐渐形成了人工特征工程+浅层分类建模的流程。近年来深度学习在本文档来自技高网...

【技术保护点】
1.面向数据分布变化的文本分类模型调整方法,其特征在于包括步骤:/nS1、构建识别网络,由带标签数据训练识别网络,用于在线文本数据的分类,获得每条文本数据的预测类别;/nS2、将识别网络的分类结果,通过相似度计算聚成不同的样本子集,比对样本子集与原有训练样本的分布情况,进行主动样本选择和训练样本积累;/nS3、构建判别网络,用手动标注后的真实标签数据和识别网络分类后未标注的预测标签数据训练判别网络,用于判断输入的“样本-标签”数据是预测标签还是真实标签;/nS4、从训练样本集中选取真实标签的数据生成格式为“样本-真实标签”的正样本数据集,从识别网络的分类结果中选取预测标签的数据生成格式为“样本...

【技术特征摘要】
1.面向数据分布变化的文本分类模型调整方法,其特征在于包括步骤:
S1、构建识别网络,由带标签数据训练识别网络,用于在线文本数据的分类,获得每条文本数据的预测类别;
S2、将识别网络的分类结果,通过相似度计算聚成不同的样本子集,比对样本子集与原有训练样本的分布情况,进行主动样本选择和训练样本积累;
S3、构建判别网络,用手动标注后的真实标签数据和识别网络分类后未标注的预测标签数据训练判别网络,用于判断输入的“样本-标签”数据是预测标签还是真实标签;
S4、从训练样本集中选取真实标签的数据生成格式为“样本-真实标签”的正样本数据集,从识别网络的分类结果中选取预测标签的数据生成格式为“样本-预测标签”的负样本数据集,基于正样本数据集、负样本数据集采用增量迭代训练判别网络,并更新在线系统的判别网络模型;
S5、识别网络根据判别网络返回的奖励值计算预期奖励的梯度,并通过策略梯度的方式更新识别网络的模型参数。


2.根据权利要求1所述面向数据分布变化的文本分类模型调整方法,其特征在于:步骤S1所构建的识别网络于在线系统流程启动后,输入为...

【专利技术属性】
技术研发人员:梁冬赵晓芳张程宋永浩王晓诗习健
申请(专利权)人:中国科学院计算技术研究所苏州智能计算产业技术研究院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1