一种文本分类打标框架制造技术

技术编号：37764586 阅读：83 留言：0更新日期：2023-06-06 13:23

本发明专利技术提供一种文本分类打标框架，涉及文本分类技术领域。包括采用多标签的方式引入语义和标签差异进行建模，该方法包括以下步骤：S1、标签体系规划。由运营专家根据业务需求规划标签体系，以树型结构呈现。S2、训练语料标注。根据标签体系制定相应的标注规范，参考该规范由人工对一批资讯数据进行打标，生产训练数据。S3、数据预处理及采样。对训练数据中的标题、正文等字段进行预处理，如去除空白字符、字段拼接等；针对训练数据中标签分布不平衡问题，进行欠采样、过采样等操作。S4、分类打标任务配置。根据标签体系进行任务配置，包括任务类型、标签树定义等。标签树定义等。标签树定义等。

全部详细技术资料下载

【技术实现步骤摘要】
ng的方式完成训练。
[0020]更进一步，所述一级标签输出层根据一级标签个数使用全连接网络实现。
[0021]更加进一步，所述根据一级标签与二级标签的父子映射关系，结合一级标签输出层，生成由0/1组成的mask i ng向量。
[0022]更加进一步，所述根据标签体系的不同，将任务分为“多分类”和“多标签分类”两种类型，前者适用softmax交叉熵损失，后者使用s igmo i d交叉熵损失。
[0023](三)有益效果
[0024]本专利技术提供了一种文本分类打标框架。具备以下有益效果：解决了多分类问题，一篇文章只会打上一个标签，多标签分类问题，一篇文章会打上一个或多个标签和层级标签分类问题，标签值之间存在层级关系，对某一层来说有可能是多分类问题，也有可能是多标签问题，并且基于自适应mask i ng的层级多标签分类建模方法和基于L2正则的标签层级先验知识学习方法。
附图说明
[0025]图1为本专利技术整体步骤流程示意图；
[0026]图2为本专利技术模型训练流程示意图。
具体实施方式r/>[0027]下本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类打标框架，其特征在于：包括采用多标签的方式引入语义和标签差异进行建模，该方法包括以下步骤：S1、标签体系规划。由运营专家根据业务需求规划标签体系，以树型结构呈现。S2、训练语料标注。根据标签体系制定相应的标注规范，参考该规范由人工对一批资讯数据进行打标，生产训练数据。S3、数据预处理及采样。对训练数据中的标题、正文等字段进行预处理，如去除空白字符、字段拼接等；针对训练数据中标签分布不平衡问题，进行欠采样、过采样等操作。S4、分类打标任务配置。根据标签体系进行任务配置，包括任务类型、标签树定义等。S5、分类打标模型训练。加载模型配置，将训练数据输入模型进行训练。S6、模型持久化。训练完成后将模型存储到本地，用于在线预测。S7、实时资讯流。对资讯队列中的实时数据依次处理。S8、文章预处理。预处理方式与S3中保持一致。S9、分类打标模型预测。加载持久化后的模型，进行打标推理。S1...

【专利技术属性】
技术研发人员：蔡奇，
申请(专利权)人：杭州贝赛迪科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人