文本分类模型的样本构建方法及装置、文本分类方法制造方法及图纸

技术编号:36165790 阅读:32 留言:0更新日期:2022-12-31 20:15
本发明专利技术涉及文本处理技术领域,提供一种文本分类模型的样本构建方法及装置、文本分类方法,所述样本构建方法包括:获取初始样本数据;所述初始样本数据包括多个初始文档,以及各所述初始文档的标签数据;所述多个初始文档的标签数据对应多个目标分类;确定任一所述目标分类中的各目标词语对所述目标分类的贡献值;所述目标词语为所述目标分类下的初始文档中的任一词语;根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据。本发明专利技术提供的样本构建方法通过计算词语对分类的贡献值,对样本数据进行样本重组,可以平衡各分类下的文本长度、改变不同分类下的样本数据量,从而均衡样本数据的分布,解决样本不均衡的问题。衡的问题。衡的问题。

【技术实现步骤摘要】
文本分类模型的样本构建方法及装置、文本分类方法


[0001]本专利技术涉及文本处理
,尤其涉及一种文本分类模型的样本构建方法及装置、文本分类方法。

技术介绍

[0002]随着科学仪器行业的发展,科学仪器相关的网站和平台也随之建立,在建立的相关网站和平台上,产生了越来越多的行业数据。在网站和平台建立早期,可以通过行业数据的产生方式或产生途径,按照网站或平台中的栏目对其进行粗略分类,实现行业数据的归档。随着科学仪器行业的发展,业内根据科学仪器的应用行业和仪器原理,结合相应行业规范以及用户认知,对科学仪器进行了科学分类。并且,随着海量行业数据的产生,网站和平台中不同栏目之间的行业数据存在壁垒,无法进行关联,因此,需要结合科学仪器的行业分类,对行业数据进行分类归档。
[0003]由于行业数据涉及海量文本数据,难以采用人工方式进行分类,需要基于已有的行业数据训练相应的文本分类模型,实现对行业数据的自动分类。然而,在网站和平台中,由于不同栏目的功能不同,产生的行业数据对应的文本长度长短不一,且长短文本的数据量分布不均匀,基于此类行业数据构建出本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的样本构建方法,其特征在于,包括:获取初始样本数据;所述初始样本数据包括多个初始文档,以及各所述初始文档的标签数据;所述多个初始文档的标签数据对应多个目标分类;确定任一所述目标分类中的各目标词语对所述目标分类的贡献值;所述目标词语为所述目标分类下的初始文档中的任一词语;根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据。2.根据权利要求1所述的文本分类模型的样本构建方法,其特征在于,所述确定任一所述目标分类中的各目标词语对所述目标分类的贡献值,包括:确定任一所述目标分类中的各目标词语在所述目标分类下的目标词频,并确定各所述目标词语在所述目标分类下的目标权重;根据所述目标词频和所述目标权重,确定各所述目标词语对所述目标分类的贡献值。3.根据权利要求2所述的文本分类模型的样本构建方法,其特征在于,所述确定任一所述目标分类中的各目标词语在所述目标分类下的目标词频,包括:获取预设的长短文本协调因子;所述长短文本协调因子包括文本长度因子和词频尺度因子;计算所述初始样本数据中所有初始文档的平均文本长度;根据所述长短文本协调因子和所述平均文本长度,计算任一所述目标分类中的各目标词语的第一词频;所述第一词频为所述目标词语在所述目标分类下的初始文档中的词频;确定所述目标分类下的目标文档的文档数量;所述目标文档为包含所述目标词语的初始文档;根据所述第一词频和所述文档数量,计算所述目标词语在所述目标分类下的目标词频。4.根据权利要求2所述的文本分类模型的样本构建方法,其特征在于,所述确定各所述目标词语在所述目标分类下的目标权重,包括:确定所述多个目标分类对应的第一分类数量和第二分类数量;其中,所述第一分类数量为包含所述目标词语的目标分类的数量;所述第二分类数量为不包含所述目标词语的目标分类的数量;根据所述第一分类数量和所述第二分类数量,计算所述目标词语在所述目标分类下的目标权重。5.根据权利要求1所述的文本分类模型的样本构建方法,其特征在于,所述根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据,包括:计算所述目标分类下的初始文档中所有目标词语的总贡献值;基于所述总贡献值,构建所述目标分类下的初始文档中所有目标词语的贡献分布图;基于所述总贡献值生成随机数区间,并在所述随机数区间内生成随机数组;将所述随机数组中的随机数作为贡献值,基于所述贡献分布图对所述目标分类下的初始文档进行文本采样,以对所述目标分类下的初始文档进行样本重组,得到目标样本数据;其中,所述随机数组的长度,与所述初始样本数据中所有初始文档的平均文本长度相同。6.根据权利要求1所述的文本分类模型的样本构建方法,其特征在于,所述获取初始样
...

【专利技术属性】
技术研发人员:付雪林王涛安重阳韩啸王启超孙思遥李晨晖苏雨辰张葳唐海霞赵鑫
申请(专利权)人:北京信立方科技发展股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1