文本分类模型的样本构建方法及装置、文本分类方法制造方法及图纸

技术编号:36165790 阅读:15 留言:0更新日期:2022-12-31 20:15
本发明专利技术涉及文本处理技术领域,提供一种文本分类模型的样本构建方法及装置、文本分类方法,所述样本构建方法包括:获取初始样本数据;所述初始样本数据包括多个初始文档,以及各所述初始文档的标签数据;所述多个初始文档的标签数据对应多个目标分类;确定任一所述目标分类中的各目标词语对所述目标分类的贡献值;所述目标词语为所述目标分类下的初始文档中的任一词语;根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据。本发明专利技术提供的样本构建方法通过计算词语对分类的贡献值,对样本数据进行样本重组,可以平衡各分类下的文本长度、改变不同分类下的样本数据量,从而均衡样本数据的分布,解决样本不均衡的问题。衡的问题。衡的问题。

【技术实现步骤摘要】
文本分类模型的样本构建方法及装置、文本分类方法


[0001]本专利技术涉及文本处理
,尤其涉及一种文本分类模型的样本构建方法及装置、文本分类方法。

技术介绍

[0002]随着科学仪器行业的发展,科学仪器相关的网站和平台也随之建立,在建立的相关网站和平台上,产生了越来越多的行业数据。在网站和平台建立早期,可以通过行业数据的产生方式或产生途径,按照网站或平台中的栏目对其进行粗略分类,实现行业数据的归档。随着科学仪器行业的发展,业内根据科学仪器的应用行业和仪器原理,结合相应行业规范以及用户认知,对科学仪器进行了科学分类。并且,随着海量行业数据的产生,网站和平台中不同栏目之间的行业数据存在壁垒,无法进行关联,因此,需要结合科学仪器的行业分类,对行业数据进行分类归档。
[0003]由于行业数据涉及海量文本数据,难以采用人工方式进行分类,需要基于已有的行业数据训练相应的文本分类模型,实现对行业数据的自动分类。然而,在网站和平台中,由于不同栏目的功能不同,产生的行业数据对应的文本长度长短不一,且长短文本的数据量分布不均匀,基于此类行业数据构建出的模型训练样本,存在样本不均衡问题,容易影响训练后的文本分类模型对行业数据的分类准确性。

技术实现思路

[0004]本专利技术提供一种文本模型的样本构建方法及装置、文本分类方法,用以解决现有技术中文本分类模型的样本构建中存在的样本不均衡的缺陷。
[0005]本专利技术提供一种文本分类模型的样本构建方法,包括:获取初始样本数据;所述初始样本数据包括多个初始文档,以及各所述初始文档的标签数据;所述多个初始文档的标签数据对应多个目标分类;确定任一所述目标分类中的各目标词语对所述目标分类的贡献值;所述目标词语为所述目标分类下的初始文档中的任一词语;根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据。
[0006]根据本专利技术提供的文本分类模型的样本构建方法,所述确定任一所述目标分类中的各目标词语对所述目标分类的贡献值,包括:确定任一所述目标分类中的各目标词语在所述目标分类下的目标词频,并确定各所述目标词语在所述目标分类下的目标权重;根据所述目标词频和所述目标权重,确定各所述目标词语对所述目标分类的贡献值。
[0007]根据本专利技术提供的文本分类模型的样本构建方法,所述确定任一所述目标分类中的各目标词语在所述目标分类下的目标词频,包括:
获取预设的长短文本协调因子;所述长短文本协调因子包括文本长度因子和词频尺度因子;计算所述初始样本数据中所有初始文档的平均文本长度;根据所述长短文本协调因子和所述平均文本长度,计算任一所述目标分类中的各目标词语的第一词频;所述第一词频为所述目标词语在所述目标分类下的初始文档中的词频;确定所述目标分类下的目标文档的文档数量;所述目标文档为包含所述目标词语的初始文档;根据所述第一词频和所述文档数量,计算所述目标词语在所述目标分类下的目标词频。
[0008]根据本专利技术提供的文本分类模型的样本构建方法,所述确定各所述目标词语在所述目标分类下的目标权重,包括:确定所述多个目标分类对应的第一分类数量和第二分类数量;其中,所述第一分类数量为包含所述目标词语的目标分类的数量;所述第二分类数量为不包含所述目标词语的目标分类的数量;根据所述第一分类数量和所述第二分类数量,计算所述目标词语在所述目标分类下的目标权重。
[0009]根据本专利技术提供的文本分类模型的样本构建方法,所述根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据,包括:计算所述目标分类下的初始文档中所有目标词语的总贡献值;基于所述总贡献值,构建所述目标分类下的初始文档中所有目标词语的贡献分布图;基于所述总贡献值生成随机数区间,并在所述随机数区间内生成随机数组;将所述随机数组中的随机数作为贡献值,基于所述贡献分布图对所述目标分类下的初始文档进行文本采样,以对所述目标分类下的初始文档进行样本重组,得到目标样本数据;其中,所述随机数组的长度,与所述初始样本数据中所有初始文档的平均文本长度相同。
[0010]根据本专利技术提供的文本分类模型的样本构建方法,所述获取初始样本数据,包括:采集原始语料数据;所述语料数据包括长文本语料和短文本语料;根据所述原始语料数据生成多个初始文档;获取各所述初始文档的标注信息,并根据所述标注信息生成各所述初始文档的标签数据;根据所述标签数据对各所述初始文档进行分类,得到初始样本数据。
[0011]根据本专利技术提供的文本分类模型的样本构建方法,所述方法还包括:基于各所述目标分类构建初始决策树,生成各所述目标分类对应的决策森林;根据各所述目标分类下的初始文档对应的样本数据量,从所述决策森林中选取样本数据量最小的第一决策树和第二决策树;对所述第一决策树和所述第二决策树进行合并,生成新增决策树;其中,所述第一
决策树和所述第二决策树为所述新增决策树的叶子节点;所述第一决策树和所述第二决策树的样本数据量之和,为所述新增决策树的样本数据量;返回并执行所述从所述决策森林中选取样本数据量最小的第一决策树和第二决策树的步骤,直到基于所述决策森林中所有的初始决策树生成一棵目标决策树为止;基于所述目标决策树构建初始文本分类模型,并利用所述目标样本数据对所述初始文本分类模型进行训练,得到目标文本分类模型。
[0012]本专利技术还提供一种基于科学仪器行业数据的文本分类方法,包括:从科学仪器的行业数据中采集待分类的目标文本数据;根据所述目标文本数据生成目标文档;将所述目标文档输入至目标文本分类模型中,对所述目标文档进行分类,得到所述目标文档的分类结果;其中,所述目标文本分类模型是基于预先构建的目标样本数据,对初始文本分类模型进行预训练得到的;所述目标样本数据是基于初始样本数据中任一目标分类中的各目标词语对所述目标分类的贡献值,对所述目标分类下的初始文档进行样本重组得到的;所述目标词语为所述目标分类下的初始文档中的任一词语;所述初始样本数据包括多个初始文档,以及各所述初始文档的标签数据;所述多个初始文档的标签数据对应多个目标分类。
[0013]本专利技术还提供一种文本分类模型的样本构建装置,包括:数据获取模块,用于获取初始样本数据;所述初始样本数据包括多个初始文档,以及各所述初始文档的标签数据;所述多个初始文档的标签数据对应多个目标分类;贡献值计算模块,用于确定任一所述目标分类中的各目标词语对所述目标分类的贡献值;所述目标词语为所述目标分类下的初始文档中的任一词语;样本重组模块,用于根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据。
[0014]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本分类模型的样本构建方法。
[0015]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如上述任一种所述文本分类模型的样本构建方法,以及如上述任一种所述基于科学仪器行业数据的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的样本构建方法,其特征在于,包括:获取初始样本数据;所述初始样本数据包括多个初始文档,以及各所述初始文档的标签数据;所述多个初始文档的标签数据对应多个目标分类;确定任一所述目标分类中的各目标词语对所述目标分类的贡献值;所述目标词语为所述目标分类下的初始文档中的任一词语;根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据。2.根据权利要求1所述的文本分类模型的样本构建方法,其特征在于,所述确定任一所述目标分类中的各目标词语对所述目标分类的贡献值,包括:确定任一所述目标分类中的各目标词语在所述目标分类下的目标词频,并确定各所述目标词语在所述目标分类下的目标权重;根据所述目标词频和所述目标权重,确定各所述目标词语对所述目标分类的贡献值。3.根据权利要求2所述的文本分类模型的样本构建方法,其特征在于,所述确定任一所述目标分类中的各目标词语在所述目标分类下的目标词频,包括:获取预设的长短文本协调因子;所述长短文本协调因子包括文本长度因子和词频尺度因子;计算所述初始样本数据中所有初始文档的平均文本长度;根据所述长短文本协调因子和所述平均文本长度,计算任一所述目标分类中的各目标词语的第一词频;所述第一词频为所述目标词语在所述目标分类下的初始文档中的词频;确定所述目标分类下的目标文档的文档数量;所述目标文档为包含所述目标词语的初始文档;根据所述第一词频和所述文档数量,计算所述目标词语在所述目标分类下的目标词频。4.根据权利要求2所述的文本分类模型的样本构建方法,其特征在于,所述确定各所述目标词语在所述目标分类下的目标权重,包括:确定所述多个目标分类对应的第一分类数量和第二分类数量;其中,所述第一分类数量为包含所述目标词语的目标分类的数量;所述第二分类数量为不包含所述目标词语的目标分类的数量;根据所述第一分类数量和所述第二分类数量,计算所述目标词语在所述目标分类下的目标权重。5.根据权利要求1所述的文本分类模型的样本构建方法,其特征在于,所述根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据,包括:计算所述目标分类下的初始文档中所有目标词语的总贡献值;基于所述总贡献值,构建所述目标分类下的初始文档中所有目标词语的贡献分布图;基于所述总贡献值生成随机数区间,并在所述随机数区间内生成随机数组;将所述随机数组中的随机数作为贡献值,基于所述贡献分布图对所述目标分类下的初始文档进行文本采样,以对所述目标分类下的初始文档进行样本重组,得到目标样本数据;其中,所述随机数组的长度,与所述初始样本数据中所有初始文档的平均文本长度相同。6.根据权利要求1所述的文本分类模型的样本构建方法,其特征在于,所述获取初始样
...

【专利技术属性】
技术研发人员:付雪林王涛安重阳韩啸王启超孙思遥李晨晖苏雨辰张葳唐海霞赵鑫
申请(专利权)人:北京信立方科技发展股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1