一种特征项的选取方法、装置、设备、介质及产品制造方法及图纸

技术编号:37703107 阅读:18 留言:0更新日期:2023-06-01 23:50
本申请实施例公开了一种特征项的选取方法、装置、设备、介质及产品。该特征项的选取方法在初始信息增益值的基础上,利用特征项在各样本文本类别的各样本文本中出现的词频数,修正该特征项的初始信息增益值,不仅考虑了包含该特征项的样本文本在总的样本文本中的影响,还考虑了该特征项对各个样本文本的影响,即考虑信息更全面,如此,可以更准确地确定该特征项的信息增益值,如此在基于该信息增益值选取特征项时,可以更准确地选取特征项。可以更准确地选取特征项。可以更准确地选取特征项。

【技术实现步骤摘要】
一种特征项的选取方法、装置、设备、介质及产品


[0001]本申请涉及文本分类
,尤其涉及一种特征项的选取方法、装置、设备、介质及产品。

技术介绍

[0002]在文本分类领域中,为了减少人力资源的消耗,提高分类效率,通常会基于文本分类模型对输入的文本进行分类,得到文本所属的文本类别。在利用文本分类模型进行文本分类时,需要预先对文本分类模型进行训练,例如可以提取样本文本的特征项,基于特征项训练文本分类模型。
[0003]特征项的选取结果会直接影响文本分类模型的准确度,进而影响文本分类结果的准确度。
[0004]目前采用的特征项选取方案中,选取的特征项准确性较差,导致在基于选取的特征项训练文本分类模型时,训练效果较差,进而影响后续的文本分类结果。
[0005]申请内容
[0006]本申请实施例提供一种特征项的选取方法、装置、设备、介质及产品,可以提高特征项选取结果的准确度。
[0007]第一方面,本申请实施例提供了一种特征项的选取方法,包括:
[0008]获取第一样本文本的N个第一特征项,第一样本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种特征项的选取方法,其特征在于,包括:获取第一样本文本的N个第一特征项,所述第一样本文本属于M个样本文本类别,M为大于或等于2的整数,N为大于或等于2的整数;针对每一个第一特征项,确定所述第一特征项在各样本文本类别的各第一样本文本中出现的词频数;根据所述第一特征项的词频数,修正所述第一特征项的初始信息增益值,得到目标信息增益值,所述初始信息增益是根据所述第一样本文本中包含所述第一特征项的样本文本的第一概率确定的;根据所述目标信息增益值,从所述N个第一特征项中选取目标特征项。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征项的词频数,修正所述第一特征项的初始信息增益值,得到目标信息增益值,包括:针对每一个第一样本文本类别,根据所述第一特征项在所述第一样本文本类别的各第一样本文本中出现的第一词频数,确定所述第一特征项在所述第一样本文本类别的第二概率,所述第一样本文本类别为所述M个样本文本类别中的任一样本文本类别;利用所述第二概率,修正所述第一特征项的初始信息增益值,得到第一信息增益值;从M个第一信息增益值中选取最大的第一信息增益值,作为所述第一特征项的目标信息增益值。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征项的词频数,修正所述第一特征项的初始信息增益值,得到目标信息增益值,包括:针对每一个第一样本文本类别,根据所述第一特征项在所述第一样本文本类别的各第一样本文本中出现的第一词频数,以及所述第一特征项在所述第一样本文本类别中的平均词频数,确定所述第一特征项在所述第一样本文本类别的第一权重,所述第一权重用于表征所述第一特征项在所述第一样本文本类别中的各第一样本文本中词频分布的均匀程度,所述第一样本文本类别为所述M个样本文本类别中的任一样本文本类别;利用所述第一权重,修正所述第一特征项的初始信息增益值,得到第二信息增益值;从M个第二信息增益值中选取最大的第二信息增益值,作为所述第一特征项的目标信息增益值。4.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征项的词频数,修正所述第一特征项的初始信息增益值,得到目标信息增益值,包括:针对每一个第一样本文本类别,根据所述第一特征项在所述第一样本文本类别的各第一样本文本中出现的第一词频数,确定所述第一特征项在所述第一样本文本类别的第二概率,以及根据所述第一词频数和所述第一特征项在所述第一样本文本类...

【专利技术属性】
技术研发人员:陈伟鸿
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1