文本的降维特征向量确定方法及装置制造方法及图纸

技术编号:13894491 阅读:119 留言:0更新日期:2016-10-24 21:08
本发明专利技术适用于文本特征处理领域,提供了一种文本的降维特征向量确定方法及装置。所述方法包括:确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量;将转换后的文本特征向量映射到再生核希尔伯特空间RKHS;确定所述RKHS的特征向量;根据所述RKHS的特征向量确定文本的降维特征向量。通过上述方法,减少重要信息的损失,增加了后续文本处理算法的选择面。

【技术实现步骤摘要】

本专利技术实施例属于文本特征处理领域,尤其涉及一种文本的降维特征向量确定方法及装置
技术介绍
现今的时代是信息的时代,每天的信息都在不断增长,为更好地过滤信息,需要对信息(如文本的信息)进行一定的处理。现有方法中,对文本进行处理的步骤通常为:选取文本的特征,再通过对选取的特征的处理来实现对文本的处理。常用的特征选取方法主要有,词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF),信息增益,卡方检验,互信息等,其中IF-IDF方法形式简洁、结构简单,并且准确率较高,应用较广。但传统的TF-IDF方法仍有以下不足:(1)直接通过计算文本的各个特征的权重值,再选取权重较大的特征,丢弃权重较小的特征,但由于直接丢弃部分权重较小的特征,因此损失了部分特征的重要信息。(2)当选取的特征个数大于样本个数时,导致有些算法(如要求特征个数小于样本个数的算法)不适用于后续的文本处理。
技术实现思路
本专利技术实施例提供了一种文本的降维特征向量确定方法及装置,旨在解决现有方法选取的特征损失了部分特征的重要信息,以及选取的特征的个数过大所导致的适用的文本处理算法过少的问题。本专利技术实施例是这样实现的,一种文本的降维特征向量确定方法,所述方法包括:确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量;将转换后的文本特征向量映射到再生核希尔伯特空间RKHS;确定所述RKHS的特征向量;根据所述RKHS的特征向量确定文本的降维特征向量。本专利技术实施例的另一目的在于提供一种文本的降维特征向量确定装置,所述装置包括:文本特征向量确定单元,用于确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量;文本特征向量映射单元,用于将转换后的文本特征向量映射到再生核希尔伯特空间RKHS;RKHS的特征向量确定单元,用于确定所述RKHS的特征向量;降维特征向量确定单元,用于根据所述RKHS的特征向量确定文本的降维特征向量。在本专利技术实施例中,由于文本特征向量是根据文本语料库中的特征确定,因此,确定的文本特征向量更全面,减少重要信息的损失,并且,由于将文本特征向量映射到RKHS后,再确定该RKHS的特征向量,进而根据该RKHS的特征向量确定文本的降维特征向量,因此,使得确定的降维特征向量更准确,从而提高后续文本处理的准确性,增加了后续文本处理算法的选择面。附图说明图1是本专利技术第一实施例提供的一种文本的降维特征向量确定方法的流程图;图2是本专利技术第二实施例提供的一种文本的降维特征向量确定装置的结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例中,确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量,将转换后的文本特征向量映射到再生核希尔伯特空间RKHS,确定所述RKHS的特征向量,根据所述RKHS的特征向量确定文本的降维特征向量。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。实施例一:图1示出了本专利技术第一实施例提供的一种文本的降维特征向量确定方法的流程图,详述如下:步骤S11,确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量。其中,文本语料库包括多个文本。可选地,在步骤S11之前,包括:对文本语料库进行分词及去停用词的处理。在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。停用词在文本中没有显著作用的词,如“啊”,“的”等词。通过该步骤,能够对文本语料库进行初步清洗,减少后续的工作量。在步骤S11中,将文本语料库进行向量空间模型(Vector space model,VSM)处理,以把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度。例如,对文本语料库进行分词及去停用词的处理后,文本语料库中的全部特征为w1,w2,...,wm,其中w1,w2,wm分别表示不同的字、词或者词组,则每个文本可以表示为如表1所示:表1:w1w2…wmx1x11x12…x1m………xnxn1xn2…xnm其中,xij表示文本的权重,1≤i≤n,1≤j≤m,文本的权重可通过TF-IDF、信息增益,卡方检验,互信息等确定。x1…xn表示n个文本。步骤S12,将转换后的文本特征向量映射到再生核希尔伯特空间RKHS。其中,所述将转换后的文本特征向量映射到再生核希尔伯特空间RKHS,具体包括:A1、确定文本语料库中各个文本的特征权重向量,再根据各个文本的特征权重向量确定信息矩阵。A2、确定所述信息矩阵所在的空间,根据所述信息矩阵所在的空间以及映射规则将转换后的文本特征向量映射到RKHS。上述A1和A2中,假设文档Di的特征权重向量为xi=(xi1,,...,xim),于是可得信息矩阵属于空间l2,且分类的训练样本记为响应变量例如,y1对应的分类为新闻类别,响应变量中的每个参数都对应不同的类别。设再生核希尔伯特空间为H,与其为一对应的核函数为K(xi,xj)。其中再生核的核函数可为:高斯核函数:为核函数的宽度参数,用于调节高斯核函数的径向作用范围;或者,为多项式核函数:scale,offset,degree>0,其中,degree为多项式的项次,“·”表示乘法运算,“|||”表示求取向量的模长,当参数不同时,可得到不同的核函数,即通过调节参数可以选取不同的再生核。假设空间l2到H的映射为:φ(x)∈H映射为:满足x∈l2时,φ(x)∈H,则根据映射规则将转换后的文本特征向量映射到RKHS。步骤S13,确定所述RKHS的特征向量。其中,所述确定所述RKHS的特征向量包括:B1、对文本特征向量进行k邻近平均处理。其中,该k邻近平均处理的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。B2、根据k邻近平均处理的处理结果、文本特征向量本身以及文本平均特征向量对文本高维特征向量进行非线性特征选择,以确定所述RKHS的特征向量。上述B1和B2中,假设x为l2中(此处x属于l2空间,并且l2本质上也是一个RKHS,然后x通过映射φ,将x映射成φ(x)属于H)的文本特征向量,且φ(x)∈H,K为再生核的核函数,则<φ(xi),φ(xj)>H=K(xi,xj),格拉姆矩阵G,n为文本的个数;对文本特征向量进行k邻近平均处理具体为:Li={j:xj与xi类别相同,且是xi的k个邻近点(即与xi距离最近的k个样本的下标对应的文本特征向量)本文档来自技高网...

【技术保护点】
一种文本的降维特征向量确定方法,其特征在于,所述方法包括:确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量;将转换后的文本特征向量映射到再生核希尔伯特空间RKHS;确定所述RKHS的特征向量;根据所述RKHS的特征向量确定文本的降维特征向量。

【技术特征摘要】
1.一种文本的降维特征向量确定方法,其特征在于,所述方法包括:确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量;将转换后的文本特征向量映射到再生核希尔伯特空间RKHS;确定所述RKHS的特征向量;根据所述RKHS的特征向量确定文本的降维特征向量。2.根据权利要求1所述的方法,其特征在于,所述将转换后的文本特征向量映射到再生核希尔伯特空间RKHS,具体包括:确定文本语料库中各个文本的特征权重向量,再根据各个文本的特征权重向量确定信息矩阵;确定所述信息矩阵所在的空间,根据所述信息矩阵所在的空间以及映射规则将转换后的文本特征向量映射到RKHS。3.根据权利要求1所述的方法,其特征在于,所述确定所述RKHS的特征向量包括:对文本特征向量进行k邻近平均处理;根据k邻近平均处理的处理结果、文本特征向量本身以及文本平均特征向量对文本高维特征向量进行非线性特征选择,以确定所述RKHS的特征向量。4.根据权利要求1所述的方法,其特征在于,所述根据所述RKHS的特征向量确定文本的降维特征向量,具体包括:对所述RKHS的特征向量的维度进行排序;选取预设个数的高维特征向量作为文本的降维特征向量,所述预设个数小于文本的总个数。5.根据权利要求1至4任一项所述的方法,其特征在于,在所述根据所述RKHS的特征向量确定文本的降维特征向量之后,包括:获取新的文本特征向量;根据所述新的文本特征向量和文本的降维特征向量确定新的文本的降维特征向量。6.一种文本的降维特征向量确定装置,其特征在于,所述装置包括:文本特征向量确定单元,用于确定文本语料库中的...

【专利技术属性】
技术研发人员:吴成龙
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1