一种针对长尾分布文档的分类方法、装置及存储介质制造方法及图纸

技术编号:37056501 阅读:14 留言:0更新日期:2023-03-29 19:33
本申请公开了一种针对长尾分布文档的分类方法、装置及存储介质,其中该方法,包括:获取长文档,其中所述长文档具有长尾分布特点;利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数且N大于等于2,N个分类模型中有N

【技术实现步骤摘要】
一种针对长尾分布文档的分类方法、装置及存储介质


[0001]本申请涉及信息分类
,特别是涉及一种针对长尾分布文档的分类方法、装置及存储介质。

技术介绍

[0002]众所周知,目前自然语言处理任务包含自然语言理解和自然语言生成两个任务。而文本分类属于自然语言理解一个分支,技术也相当成熟,但主要是在短文本方面。文本分类又可以划分为多标签分类和单标签分类,在单标签分类中包含多分类和二分类任务,本专利主要讨论长文档多分类任务技术以及相关背景。在我们日常研发中,获取到的数据都有长尾分布特点,标签样本对应不均衡、样本数量差距极大。
[0003]针对上述的现有技术中存在的长文档特征不好提取以及标签类别不平衡存在长尾分布的技术问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术的实施例提供了一种针对长尾分布文档的分类方法、装置及存储介质,以至少解决现有技术中存在的长文档特征不好提取以及标签类别不平衡存在长尾分布的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种针对长尾分布文档的分类方法,包括:获取长文档,其中所述长文档具有长尾分布特点;利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数且N大于等于2,N个分类模型中有N

1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成;基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
[0006]可选地,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测之前,还包括:获取语料集,并对所述语料集进行预处理;对预处理后的语料集中的各个句子进行词切分,得到词集合;统计词集合中各个词的词频以及词与标签的共现词频;采用关联规则的方式,基于统计的词频、共现词频,计算关联规则中的支持度、置信度和提升度;根据支持度、置信度、提升度以及预设的阈值,对词集合进行词过滤,得到关键词库。
[0007]可选地,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测之前,还包括:获取语料集;基于语料集,统计各个标签下对应的样本数量,并按照样本数量对各个标签进行倒序排列;将各个标签对应的样本数量与预设的样本阈值进行比较;将样本数量小于或者等于样本阈值的所有标签归为一簇,将样本数量大于样本阈值的各个标签分别当做另一簇,得到多簇标签;统一每一簇标签的样本数量,并按照样本数量对各簇标签进行倒序排序;按照簇的个数,将多簇标签分成与N份,得到N份数据集;采用N

1份数据集训练N

1个机器学习模型,生成N

1个经过语料训练得到的分类模型;对另一份数据集采用统计规则,生成一个基于统计规则的分类模型。
[0008]可选地,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N
个预测标签,包括:加载关键词库,基于关键词库对所述长文档进行词切分;基于词切分的结果,使用词频

逆文档频率,对所述长文档进行句向量转化;将转化得到的句向量输入N

1个经过语料训练得到的分类模型,输出N

1个预测标签;将词切分得到的各个词与基于统计规则的分类模型中的各个关键词进行匹配,将匹配到的关键词对应的标签确定为预测标签。
[0009]可选地,基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果,包括:确定所述多个预测标签中各类标签的数量;当各类标签中数量最大的标签对应的数值大于预设阈值时,将数量最大的标签确定为所述长文档的分类结果;当各类标签中数量最大的标签对应的数值不大于预设阈值时,将采用统计规则生成的分类模型输出的预测标签确定为所述长文档的分类结果。可选地,经过语料训练得到的分类模型为LightGBM模型。
[0010]根据本专利技术实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
[0011]根据本专利技术实施例的另一个方面,还提供了一种针对长尾分布文档的分类装置,包括:获取模块,用于获取长文档,其中所述长文档具有长尾分布特点;预测模块,用于利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数,且N大于等于2,N个分类模型中有N

1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成;分类模块,用于基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
[0012]可选地,预测模块,具体用于:加载关键词库,基于关键词库对所述长文档进行词切分;基于词切分的结果,使用词频

逆文档频率,对所述长文档进行句向量转化;将转化得到的句向量输入N

1个经过语料训练得到的分类模型,输出N

1个预测标签;将词切分得到的各个词与基于统计规则的分类模型中的各个关键词进行匹配,将匹配到的关键词对应的标签确定为预测标签。
[0013]根据本专利技术实施例的另一个方面,还提供了一种针对长尾分布文档的分类装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取长文档,其中所述长文档具有长尾分布特点;利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数,且N大于等于2,N个分类模型中有N

1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成;基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。
[0014]在本专利技术实施例中,首先获取长文档,其中所述长文档具有长尾分布特点。然后利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签。其中N为正整数且N大于等于2,N个分类模型中有N

1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成不进行训练。最后基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。本专利技术针对长文档特征不好提取这一缺陷,预先构建了专业的关键词库,提高了分词的精确度,使得提取的特征基于关键词。本专利技术针对标签类别不平衡处理存在长尾分布这一缺陷,通过对各种标签进行更细粒度的分析,并开发了多个分类模型,通过多个分类模型针对不同样本数量的标签进行预测。从而解决了现有技术中存在的长文档特征不好提取以及标签类别不平衡存在长尾分布的技术
问题。
附图说明
[0015]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0016]图1是用于实现根据本专利技术实施例1所述的方法的计算设备的硬件结构框图;
[0017]图2是根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对长尾分布文档的分类方法,其特征在于,包括:获取长文档,其中所述长文档具有长尾分布特点;利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,其中N为正整数且N大于等于2,N个分类模型中有N

1个分类模型为经过语料训练得到的,另一个分类模型采用统计规则生成;基于预设的标签融合策略,从所述多个预测标签中确定一个目标标签作为所述长文档的分类结果。2.根据权利要求1所述的方法,其特征在于,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测之前,还包括:获取语料集,并对所述语料集进行预处理;对预处理后的语料集中的各个句子进行词切分,得到词集合;统计词集合中各个词的词频以及词与标签的共现词频;采用关联规则的方式,基于统计的词频、共现词频,计算关联规则中的支持度、置信度和提升度;根据支持度、置信度、提升度以及预设的阈值,对词集合进行词过滤,得到关键词库。3.根据权利要求1所述的方法,其特征在于,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测之前,还包括:获取语料集;基于语料集,统计各个标签下对应的样本数量,并按照样本数量对各个标签进行倒序排列;将各个标签对应的样本数量与预设的样本阈值进行比较;将样本数量小于或者等于样本阈值的所有标签归为一簇,将样本数量大于样本阈值的各个标签分别当做另一簇,得到多簇标签;统一每一簇标签的样本数量,并按照样本数量对各簇标签进行倒序排序;按照簇的个数,将多簇标签分成与N份,得到N份数据集;采用N

1份数据集训练N

1个机器学习模型,生成N

1个经过语料训练得到的分类模型;对另一份数据集采用统计规则,生成一个基于统计规则的分类模型。4.根据权利要求1所述的方法,其特征在于,利用预先生成的关键词库和N个分类模型,对所述长文档进行预测,得到N个预测标签,包括:加载关键词库,基于关键词库对所述长文档进行词切分;基于词切分的结果,使用词频

逆文档频率,对所述长文档进行句向量转化;将转化得到的句向量输入N

1个经过语料训练得到的分类模型,输出N

1个预测标签;将词切分得到的各个词与基于统计规则的分类模型中的各个关键词进行匹配,将匹配到的关键词对应的标签确定为预测...

【专利技术属性】
技术研发人员:段兴涛赵国庆周长安
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1