一种针对长尾分布文档的分类方法、装置及存储介质制造方法及图纸

技术编号：37056501 阅读：14 留言：0更新日期：2023-03-29 19:33

本申请公开了一种针对长尾分布文档的分类方法、装置及存储介质，其中该方法，包括：获取长文档，其中所述长文档具有长尾分布特点；利用预先生成的关键词库和N个分类模型，对所述长文档进行预测，得到N个预测标签，其中N为正整数且N大于等于2，N个分类模型中有N

全部详细技术资料下载

【技术实现步骤摘要】
一种针对长尾分布文档的分类方法、装置及存储介质

[0001]本申请涉及信息分类
，特别是涉及一种针对长尾分布文档的分类方法、装置及存储介质。

技术介绍

[0002]众所周知,目前自然语言处理任务包含自然语言理解和自然语言生成两个任务。而文本分类属于自然语言理解一个分支，技术也相当成熟，但主要是在短文本方面。文本分类又可以划分为多标签分类和单标签分类，在单标签分类中包含多分类和二分类任务，本专利主要讨论长文档多分类任务技术以及相关背景。在我们日常研发中，获取到的数据都有长尾分布特点，标签样本对应不均衡、样本数量差距极大。
[0003]针对上述的现有技术中存在的长文档特征不好提取以及标签类别不平衡存在长尾分布的技术问题，目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术的实施例提供了一种针对长尾分布文档的分类方法、装置及存储介质，以至少解决现有技术中存在的长文档特征不好提取以及标签类别不平衡存在长尾分布的技术问题。
[0005]根据本专利技术实施例的一个方面，提供了一种针对长尾分布文档的分类方法，包括：获取长文档，其中所述长文档具有长尾分布特点；利用预先生成的关键词库和N个分类模型，对所述长文档进行预测，得到N个预测标签，其中N为正整数且N大于等于2，N个分类模型中有N
‑
1个分类模型为经过语料训练得到的，另一个分类模型采用统计规则生成；基于预设的标签融合策略，从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
[0006]可选地...

【技术保护点】

【技术特征摘要】
1.一种针对长尾分布文档的分类方法，其特征在于，包括：获取长文档，其中所述长文档具有长尾分布特点；利用预先生成的关键词库和N个分类模型，对所述长文档进行预测，得到N个预测标签，其中N为正整数且N大于等于2，N个分类模型中有N
‑
1个分类模型为经过语料训练得到的，另一个分类模型采用统计规则生成；基于预设的标签融合策略，从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。2.根据权利要求1所述的方法，其特征在于，利用预先生成的关键词库和N个分类模型，对所述长文档进行预测之前，还包括：获取语料集，并对所述语料集进行预处理；对预处理后的语料集中的各个句子进行词切分，得到词集合；统计词集合中各个词的词频以及词与标签的共现词频；采用关联规则的方式，基于统计的词频、共现词频，计算关联规则中的支持度、置信度和提升度；根据支持度、置信度、提升度以及预设的阈值，对词集合进行词过滤，得到关键词库。3.根据权利要求1所述的方法，其特征在于，利用预先生成的关键词库和N个分类模型，对所述长文档进行预测之前，还包括：获取语料集；基于语料集，统计各个标签下对应的样本数量，并按照样本数量对各个标签进行倒序排列；将各个标签对应的样本数量与预设的样本阈值进行比较；将样本数量小于或者等于样本阈值的所有标签归为一簇，将样本数量大于样本阈值的各个标签分别当做另一簇，得到多簇标签；统一每一簇标签的样本数量，并按照样本数量对各簇标签进行倒序排序；按照簇的个数，将多簇标签分成与N份，得到N份数据集；采用N
‑
1份数据集训练N
‑
1个机器学习模型，生成N
‑
1个经过语料训练得到的分类模型；对另一份数据集采用统计规则，生成一个基于统计规则的分类模型。4.根据权利要求1所述的方法，其特征在于，利用预先生成的关键词库和N个分类模型，对所述长文档进行预测，得到N个预测标签，包括：加载关键词库，基于关键词库对所述长文档进行词切分；基于词切分的结果，使用词频
‑
逆文档频率，对所述长文档进行句向量转化；将转化得到的句向量输入N
‑
1个经过语料训练得到的分类模型，输出N
‑
1个预测标签；将词切分得到的各个词与基于统计规则的分类模型中的各个关键词进行匹配，将匹配到的关键词对应的标签确定为预测...

【专利技术属性】
技术研发人员：段兴涛，赵国庆，周长安，
申请(专利权)人：北京中关村科金技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人