一种文本特征的提取方法、装置和电子设备制造方法及图纸

技术编号:34173404 阅读:22 留言:0更新日期:2022-07-17 11:19
本申请实施例公开了一种文本特征的提取方法、装置和电子设备,该方法包括:获取样本集合和特征词集合,并确定样本集合中每个文本的类别;根据每个文本的类别,确定对应于每个类别的每个特征词的第一参数和第二参数;对于特征词集合中的每个特征词和样本集合中的每个文本,根据第一参数、特征词在文本中出现的次数,以及文本中所有词汇出现的次数的总和,确定第一频率;根据第二参数、文本集合中包含特征词的文本个数,以及文本中所有词汇出现的次数的总和,确定第二频率;根据第一频率和第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵,用以提高文本分类的准确性。类的准确性。类的准确性。

A text feature extraction method, device and electronic device

【技术实现步骤摘要】
一种文本特征的提取方法、装置和电子设备


[0001]本专利技术涉及计算机领域,特别是涉及一种文本特征的提取方法、装置和电子设备。

技术介绍

[0002]随着论坛文本数据量的产生,对于文本数据的处理和分析的需求越来越高,对于自动化实现文本分类的需求便是其中一种。文本分类通常指的是利用文本内容相关的信息,将多个文本进行划分为不同的类别。
[0003]由于数据量较大,通常需要对文本进行处理,并利用处理后的结果进行文本分类。而对文本特征的提取是较为重要的一个步骤。然而,目前对文本特征进行提取的方式不能够充分抓取文本的信息,从而导致文本分类的准确性较低。

技术实现思路

[0004]有鉴于此,本申请提供一种文本特征的提取方法、装置和电子设备,用以提高文本分类的准确性。
[0005]第一方面,本申请提供一种文本特征的提取方法,该方法包括:
[0006]获取样本集合和特征词集合,并确定样本集合中每个文本的类别;
[0007]根据每个文本的类别,确定对应于每个类别的每个特征词的第一参数和第二参数
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本特征的提取方法,其特征在于,所述方法包括:获取样本集合和特征词集合,并确定样本集合中每个文本的类别;根据所述每个文本的类别,确定对应于每个类别的每个特征词的第一参数和第二参数;对于所述特征词集合中的每个特征词和所述样本集合中的每个文本,根据所述第一参数、特征词在文本中出现的次数,以及文本中所有词汇出现的次数的总和,确定第一频率;根据所述第二参数、所述文本集合中包含特征词的文本个数,以及文本中所有词汇出现的次数的总和,确定第二频率;根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵。2.根据权利要求1所述的方法,其特征在于,在所述根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵之前,所述方法还包括:根据所述每个特征词的词性,确定所述每个特征词的词性权重;所述根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵,包括:根据所述第一频率、所述第二频率和所述词性权重,确定对应于每个文本的每个特征词的权重,得到每个类别的所述权重矩阵。3.根据权利要求1所述的方法,其特征在于,在所述根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵之前,所述方法还包括:对于所述特征词集合中的每个特征词和所述样本集合中的每个文本,根据特征词在文本中的位置,确定所述每个特征词的位置权重;所述根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵,包括:根据所述第一频率、所述第二频率和所述位置权重,确定对应于每个文本的每个特征词的权重,得到每个类别的所述权重矩阵。4.根据权利要求1所述的方法,其特征在于,在所述获取样本集合和特征词集合之后,所述方法还包括:删除所述样本集合中的每个文本中的未登录词,其中,所述未登录词包括文本中的人名、地名。5.一种文本特征的提取装置,其特征在于,所述装置包...

【专利技术属性】
技术研发人员:曹思诺宋启威杨妍
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1