【技术实现步骤摘要】
一种文本特征的提取方法、装置和电子设备
[0001]本专利技术涉及计算机领域,特别是涉及一种文本特征的提取方法、装置和电子设备。
技术介绍
[0002]随着论坛文本数据量的产生,对于文本数据的处理和分析的需求越来越高,对于自动化实现文本分类的需求便是其中一种。文本分类通常指的是利用文本内容相关的信息,将多个文本进行划分为不同的类别。
[0003]由于数据量较大,通常需要对文本进行处理,并利用处理后的结果进行文本分类。而对文本特征的提取是较为重要的一个步骤。然而,目前对文本特征进行提取的方式不能够充分抓取文本的信息,从而导致文本分类的准确性较低。
技术实现思路
[0004]有鉴于此,本申请提供一种文本特征的提取方法、装置和电子设备,用以提高文本分类的准确性。
[0005]第一方面,本申请提供一种文本特征的提取方法,该方法包括:
[0006]获取样本集合和特征词集合,并确定样本集合中每个文本的类别;
[0007]根据每个文本的类别,确定对应于每个类别的每个特征词的第一参数和第二参数 ...
【技术保护点】
【技术特征摘要】
1.一种文本特征的提取方法,其特征在于,所述方法包括:获取样本集合和特征词集合,并确定样本集合中每个文本的类别;根据所述每个文本的类别,确定对应于每个类别的每个特征词的第一参数和第二参数;对于所述特征词集合中的每个特征词和所述样本集合中的每个文本,根据所述第一参数、特征词在文本中出现的次数,以及文本中所有词汇出现的次数的总和,确定第一频率;根据所述第二参数、所述文本集合中包含特征词的文本个数,以及文本中所有词汇出现的次数的总和,确定第二频率;根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵。2.根据权利要求1所述的方法,其特征在于,在所述根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵之前,所述方法还包括:根据所述每个特征词的词性,确定所述每个特征词的词性权重;所述根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵,包括:根据所述第一频率、所述第二频率和所述词性权重,确定对应于每个文本的每个特征词的权重,得到每个类别的所述权重矩阵。3.根据权利要求1所述的方法,其特征在于,在所述根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵之前,所述方法还包括:对于所述特征词集合中的每个特征词和所述样本集合中的每个文本,根据特征词在文本中的位置,确定所述每个特征词的位置权重;所述根据所述第一频率和所述第二频率,确定对应于每个文本的每个特征词的权重,得到每个类别的权重矩阵,包括:根据所述第一频率、所述第二频率和所述位置权重,确定对应于每个文本的每个特征词的权重,得到每个类别的所述权重矩阵。4.根据权利要求1所述的方法,其特征在于,在所述获取样本集合和特征词集合之后,所述方法还包括:删除所述样本集合中的每个文本中的未登录词,其中,所述未登录词包括文本中的人名、地名。5.一种文本特征的提取装置,其特征在于,所述装置包...
【专利技术属性】
技术研发人员:曹思诺,宋启威,杨妍,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。