文本特征选择的方法、装置和系统制造方法及图纸

技术编号:17048074 阅读:28 留言:0更新日期:2018-01-17 17:48
本发明专利技术提供一种文本特征选择的方法、装置和系统,利用类间词分布和类内词相关性的文本特征选择方法,解决了文本选择时部分错词或与主题无关的词无法过滤的问题。该方法包括:获取分类后的文本数据,对文本数据进行分词以获得词,根据词得到特征,组成特征集合;根据类间词分布差异算法计算特征集合中特征的差异,去除差异不满足差异阈值的特征;根据类内词相关性算法计算词的相关性,并根据相关性小于相关性阈值的词去除相应的特征;输出特征集合。

The method, device and system of text feature selection

The invention provides a method, device and system for text feature selection, and solves the problem of partial or unrelated words in text selection when using text feature selection method based on inter class word distribution and intra class word correlation. The method comprises: acquiring text data after classification, segmentation of the text data to obtain the word, according to the word feature, component feature set; difference calculation in the feature set according to the characteristics of the distribution difference between class difference algorithm, the removal does not meet the feature difference threshold; word correlation calculation according to the class word correlation algorithm. According to the correlation between the correlation threshold is less than the corresponding word removal characteristics; output feature set.

【技术实现步骤摘要】
文本特征选择的方法、装置和系统
本专利技术涉及计算机技术及软件领域,尤其涉及一种文本特征选择的方法、装置和系统。
技术介绍
互联网上信息资源的迅猛增加,以及人们对能够从网络上快速、有效地获取信息的迫切需求,极大的促进了信息检索技术的发展。文本的特征选择是信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。文本特征选择广泛的应用于文本分类、自动文摘、情感分析等领域。常用的文本特征选择方法容错能力较低,在一些没有经过严格编辑(如电商领域用户的商品评论)的文本中,文本特征选择的效果并不理想。究其原因:常用文本特征选择算法的思想是比较类别间词分布的差异,选择差异性较大的作为文本特征。然而部分词(错词或与主题无关的词)出现较随机且词频很小,进而导致词间分布差异较大,从而使得选择出的文本特征无法过滤,影响信息检索结果的准确性。
技术实现思路
有鉴于此,本专利技术提供一种文本特征选择的方法、装置和系统,利用类间词分布和类内词相关性的文本特征选择方法,解决了文本特征选择时部分错词或与主题无关的词无法过滤的问题。为实现上述目的,根据本专利技术的一个方面,提供了一种文本特征选择的方法。本专利技术的一种文本特征选择的方法包括:获取分类后的文本数据,对文本数据进行分词以获得词,根据词得到特征,组成特征集合;根据类间词分布差异算法计算特征集合中特征的差异,去除差异不满足差异阈值的特征;根据类内词相关性算法计算词的相关性,并根据相关性小于相关性阈值的词去除相应的特征;输出特征集合。可选地,根据词得到特征包括:将词作为特征;和/或根据信息检索的需求对词进行词对组合,将组合的词对作为特征。可选地,所述根据信息检索的需求对词进行词对组合包括:基于N-Gram模型对词进行词对组合。可选地,根据类间词分布差异算法计算特征集合中特征的差异,去除差异不满足差异阈值的特征包括:基于卡方检验法计算特征的卡方值,去除卡方值小于卡方阈值的特征;或基于最大熵原理计算特征的熵值,去除熵值大于熵阈值的特征。可选地,根据类内词相关性算法计算词的相关性,并根据相关性小于相关性阈值的词去除相应的特征包括:基于TextRank算法计算词的权重,根据权重小于权重阈值的词去除相应的特征。为实现上述目的,根据本专利技术的另一方面,提供了一种文本特征选择的装置。本专利技术的一种文本特征选择的装置包括:分词模块,用于获取分类后的文本数据,对文本数据进行分词以获得词,根据词得到特征,组成特征集合;类间词分布差异计算模块,用于根据类间词分布差异算法计算特征集合中特征的差异,去除差异不满足差异阈值的特征;类内词相关性计算模块,用于根据类内词相关性算法计算词的相关性,并根据相关性小于相关性阈值的词去除相应的特征;输出模块,用于输出特征集合。可选地,所述分词模块还用于:将词作为特征;和/或根据信息检索的需求对词进行词对组合,将组合的词对作为特征。可选地,所述分词模块还用于:基于N-Gram模型对词进行词对组合。可选地,所述类间词分布差异计算模块还用于:基于卡方检验法计算特征的卡方值,去除卡方值小于卡方阈值的特征;或基于最大熵原理计算特征的熵值,去除熵值大于熵阈值的特征。可选地,所述类内词相关性计算模块还用于:基于TextRank算法计算词的权重,根据权重小于权重阈值的词去除相应的特征。为实现上述目的,根据本专利技术的一个方面,提供了一种文本特征选择的系统。本专利技术的一种文本特征选择的系统包括:存储器和处理器,其中:所述存储器存储指令;所述处理器被配置为根据指令执行下列步骤:获取分类后的文本数据,对文本数据进行分词以获得词,根据词得到特征,组成特征集合;根据类间词分布差异算法计算特征集合中特征的差异,去除差异不满足差异阈值的特征;根据类内词相关性算法计算词的相关性,并根据相关性小于相关性阈值的词去除相应的特征;输出特征集合。根据本专利技术的技术方案,通过利用类间词分布差异算法和类内词相关性计算算法的结合,从而可以有效地进行文本特征的选择,并且高效地过滤了文本特征中存在的错词以及与主题无关的词,提高文本特征选择的准确性;通过直接将词作为文本特征和/或将根据词组成的词对作为文本特征,从而可以满足不同的文本特征选择的需求,使得到的结果更符合信息检索的场景计算需求。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的文本特征选择的方法的主要步骤的示意图;图2是根据本专利技术实施例的文本特征选择的装置的主要模块的示意图;图3是根据本专利技术实施例的文本特征选择的系统的主要部分的示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。文本的特征选择是信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。本文的特征选择广泛的应用于文本分类、自动文摘、情感分析等领域。常用的文本特征选择算法容错能力比较低,在一些没有经过严格编辑(如电商用户的商品评论)的文本中效果不理想。本专利技术实施例提出了一种利用类间词分布差异和类内词相关性结合的文本特征选择方案。以下以对电商用户的商品评价进行特征选择为例对本专利技术实施例的文本特征选择的方法、装置及系统进行详细说明。图1是根据本专利技术实施例的文本特征选择的方法的主要步骤的示意图。如图1所示,本专利技术实施例的文本特征选择的方法主要包括如下步骤:步骤S11:获取分类后的文本数据,对文本数据进行分词以获得词,根据词得到特征,组成特征集合。其中,根据词得到特征包括:将词作为特征;和/或根据信息检索的需求对词进行词对组合,将组合的词对作为特征。本步骤的目的在于获得待处理的文本数据,根据分词的方法,将文本数据分成各个词,并根据信息检索或文本分类的需求将词组成特征进行特征的选择。以电商领域手机品类相关商品的用户评论数据为例作为文本输入,对评论预先打好类别标签,继而利用分词工具,对文本进行分词。其中,分词可以采用多种分词工具,本专利技术实施例中可以采用NLPIR汉语分词系统进行分词,得到的词与词之间可以用符号(例如可以但不限于“#”)分隔开。在得到词之后,可以利用词作为特征,进行文本特征的选择或过滤。但是为了提高文本选择的准确性,例如:在文本分类过程中,不仅希望得到文本的主题,也希望得到关于主题的情感倾向。例如评论‘手机不错’中,我们不仅希望得到文本的主题‘手机’,也希望得到关于主题‘手机’的情感倾向‘不错’。因此,本专利技术实施例利用词对作为文本特征进行选择。具体而言,本专利技术实施例中,根据信息检索或文本分类的需求对词进行词对组合包括:基于N-Gram模型对词进行词对组合。N-Gram模型认为某个词出现在i位置的概率与其前后的n个词有关。以i表示词的位置(i=1,…,m。m表示句子中的词个数),词对特征的选择的流程可描述如下:从句子的第一个词开始至句子最后一个词,对于每个词选择该词(i-n+1,i+n-1)/i(即从i-n+1到i+n-1范围内去掉位置i的词)范围内的词与该词组成词对(其中,i-n+1&a本文档来自技高网...
文本特征选择的方法、装置和系统

【技术保护点】
一种文本特征选择的方法,其特征在于,包括:获取分类后的文本数据,对文本数据进行分词以获得词,根据词得到特征,组成特征集合;根据类间词分布差异算法计算特征集合中特征的差异,去除差异不满足差异阈值的特征;根据类内词相关性算法计算词的相关性,并根据相关性小于相关性阈值的词去除相应的特征;输出特征集合。

【技术特征摘要】
1.一种文本特征选择的方法,其特征在于,包括:获取分类后的文本数据,对文本数据进行分词以获得词,根据词得到特征,组成特征集合;根据类间词分布差异算法计算特征集合中特征的差异,去除差异不满足差异阈值的特征;根据类内词相关性算法计算词的相关性,并根据相关性小于相关性阈值的词去除相应的特征;输出特征集合。2.根据权利要求1所述的方法,其特征在于,根据词得到特征包括:将词作为特征;和/或根据信息检索的需求对词进行词对组合,将组合的词对作为特征。3.根据权利要求2所述的方法,其特征在于,所述根据信息检索的需求对词进行词对组合包括:基于N-Gram模型对词进行词对组合。4.根据权利要求1所述的方法,其特征在于,根据类间词分布差异算法计算特征集合中特征的差异,去除差异不满足差异阈值的特征包括:基于卡方检验法计算特征的卡方值,去除卡方值小于卡方阈值的特征;或基于最大熵原理计算特征的熵值,去除熵值大于熵阈值的特征。5.根据权利要求1所述的方法,其特征在于,根据类内词相关性算法计算词的相关性,并根据相关性小于相关性阈值的词去除相应的特征包括:基于TextRank算法计算词的权重,根据权重小于权重阈值的词去除相应的特征。6.一种文本特征选择的装置,其特征在于,包括:分词模块,用于获取分类后的文本数据,对文本数据进行分词以获得词,根据词得到特征,组成特征集合;类间词分布差异计算模块,用于根...

【专利技术属性】
技术研发人员:车天博
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1