一种文本分类打标框架制造技术

技术编号:37764586 阅读:83 留言:0更新日期:2023-06-06 13:23
本发明专利技术提供一种文本分类打标框架,涉及文本分类技术领域。包括采用多标签的方式引入语义和标签差异进行建模,该方法包括以下步骤:S1、标签体系规划。由运营专家根据业务需求规划标签体系,以树型结构呈现。S2、训练语料标注。根据标签体系制定相应的标注规范,参考该规范由人工对一批资讯数据进行打标,生产训练数据。S3、数据预处理及采样。对训练数据中的标题、正文等字段进行预处理,如去除空白字符、字段拼接等;针对训练数据中标签分布不平衡问题,进行欠采样、过采样等操作。S4、分类打标任务配置。根据标签体系进行任务配置,包括任务类型、标签树定义等。标签树定义等。标签树定义等。

【技术实现步骤摘要】
ng的方式完成训练。
[0020]更进一步,所述一级标签输出层根据一级标签个数使用全连接网络实现。
[0021]更加进一步,所述根据一级标签与二级标签的父子映射关系,结合一级标签输出层,生成由0/1组成的mask i ng向量。
[0022]更加进一步,所述根据标签体系的不同,将任务分为“多分类”和“多标签分类”两种类型,前者适用softmax交叉熵损失,后者使用s igmo i d交叉熵损失。
[0023](三)有益效果
[0024]本专利技术提供了一种文本分类打标框架。具备以下有益效果:解决了多分类问题,一篇文章只会打上一个标签,多标签分类问题,一篇文章会打上一个或多个标签和层级标签分类问题,标签值之间存在层级关系,对某一层来说有可能是多分类问题,也有可能是多标签问题,并且基于自适应mask i ng的层级多标签分类建模方法和基于L2正则的标签层级先验知识学习方法。
附图说明
[0025]图1为本专利技术整体步骤流程示意图;
[0026]图2为本专利技术模型训练流程示意图。
具体实施方式r/>[0027]下本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类打标框架,其特征在于:包括采用多标签的方式引入语义和标签差异进行建模,该方法包括以下步骤:S1、标签体系规划。由运营专家根据业务需求规划标签体系,以树型结构呈现。S2、训练语料标注。根据标签体系制定相应的标注规范,参考该规范由人工对一批资讯数据进行打标,生产训练数据。S3、数据预处理及采样。对训练数据中的标题、正文等字段进行预处理,如去除空白字符、字段拼接等;针对训练数据中标签分布不平衡问题,进行欠采样、过采样等操作。S4、分类打标任务配置。根据标签体系进行任务配置,包括任务类型、标签树定义等。S5、分类打标模型训练。加载模型配置,将训练数据输入模型进行训练。S6、模型持久化。训练完成后将模型存储到本地,用于在线预测。S7、实时资讯流。对资讯队列中的实时数据依次处理。S8、文章预处理。预处理方式与S3中保持一致。S9、分类打标模型预测。加载持久化后的模型,进行打标推理。S1...

【专利技术属性】
技术研发人员:蔡奇
申请(专利权)人:杭州贝赛迪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1