The invention provides a method, device and system for text feature selection, and solves the problem of partial or unrelated words in text selection when using text feature selection method based on inter class word distribution and intra class word correlation. The method comprises: acquiring text data after classification, segmentation of the text data to obtain the word, according to the word feature, component feature set; difference calculation in the feature set according to the characteristics of the distribution difference between class difference algorithm, the removal does not meet the feature difference threshold; word correlation calculation according to the class word correlation algorithm. According to the correlation between the correlation threshold is less than the corresponding word removal characteristics; output feature set.
【技术实现步骤摘要】
文本特征选择的方法、装置和系统
本专利技术涉及计算机技术及软件领域,尤其涉及一种文本特征选择的方法、装置和系统。
技术介绍
互联网上信息资源的迅猛增加,以及人们对能够从网络上快速、有效地获取信息的迫切需求,极大的促进了信息检索技术的发展。文本的特征选择是信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。文本特征选择广泛的应用于文本分类、自动文摘、情感分析等领域。常用的文本特征选择方法容错能力较低,在一些没有经过严格编辑(如电商领域用户的商品评论)的文本中,文本特征选择的效果并不理想。究其原因:常用文本特征选择算法的思想是比较类别间词分布的差异,选择差异性较大的作为文本特征。然而部分词(错词或与主题无关的词)出现较随机且词频很小,进而导致词间分布差异较大,从而使得选择出的文本特征无法过滤,影响信息检索结果的准确性。
技术实现思路
有鉴于此,本专利技术提供一种文本特征选择的方法、装置和系统,利用类间词分布和类内词相关性的文本特征选择方法,解决了文本特征选择时部分错词或与主题无关的词无法过滤的问题。为实现上述目的,根据本专利技术的一个方面,提供了一种文本特征选择的方法。本专利技术的一种文本特征选择的方法包括:获取分类后的文本数据,对文本数据进行分词以获得词,根据词得到特征,组成特征集合;根据类间词分布差异算法计算特征集合中特征的差异,去除差异不满足差异阈值的特征;根据类内词相关性算法计算词的相关性,并根据相关性小于相关性阈值的词去除相应的特征;输出特征集合。可选地,根据词得到特征包括:将词作为特征;和/或根据信息检索的需求对词进行词对组合,将 ...
【技术保护点】
一种文本特征选择的方法,其特征在于,包括:获取分类后的文本数据,对文本数据进行分词以获得词,根据词得到特征,组成特征集合;根据类间词分布差异算法计算特征集合中特征的差异,去除差异不满足差异阈值的特征;根据类内词相关性算法计算词的相关性,并根据相关性小于相关性阈值的词去除相应的特征;输出特征集合。
【技术特征摘要】
1.一种文本特征选择的方法,其特征在于,包括:获取分类后的文本数据,对文本数据进行分词以获得词,根据词得到特征,组成特征集合;根据类间词分布差异算法计算特征集合中特征的差异,去除差异不满足差异阈值的特征;根据类内词相关性算法计算词的相关性,并根据相关性小于相关性阈值的词去除相应的特征;输出特征集合。2.根据权利要求1所述的方法,其特征在于,根据词得到特征包括:将词作为特征;和/或根据信息检索的需求对词进行词对组合,将组合的词对作为特征。3.根据权利要求2所述的方法,其特征在于,所述根据信息检索的需求对词进行词对组合包括:基于N-Gram模型对词进行词对组合。4.根据权利要求1所述的方法,其特征在于,根据类间词分布差异算法计算特征集合中特征的差异,去除差异不满足差异阈值的特征包括:基于卡方检验法计算特征的卡方值,去除卡方值小于卡方阈值的特征;或基于最大熵原理计算特征的熵值,去除熵值大于熵阈值的特征。5.根据权利要求1所述的方法,其特征在于,根据类内词相关性算法计算词的相关性,并根据相关性小于相关性阈值的词去除相应的特征包括:基于TextRank算法计算词的权重,根据权重小于权重阈值的词去除相应的特征。6.一种文本特征选择的装置,其特征在于,包括:分词模块,用于获取分类后的文本数据,对文本数据进行分词以获得词,根据词得到特征,组成特征集合;类间词分布差异计算模块,用于根...
【专利技术属性】
技术研发人员:车天博,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。