The invention relates to the technical field of data mining, especially relates to a method and apparatus for feature extraction, feature extraction method is provided including: determining the address word text processing; according to the number of words arranged in advance and jump words, word address word text from the post-processing of the characteristics of the words, the address word text after treatment; the number of the words contained in each feature string is equal to the number of words from the number of words, and each feature string has two adjacent words apart in the address in the text is equal to the number of hops. This application program can address the text to jump word processing, and thus have the opportunity to get a strong distinguishing feature words, enhance the text mining effect.
【技术实现步骤摘要】
一种特征提取方法和装置
本申请涉及数据挖掘
,尤其涉及一种特征提取方法和装置。
技术介绍
随着数据仓库中文本信息的飞速增长,文本挖掘成为信息领域的研究热点。地址信息是以文本的形式存储在数据仓库中的,由于地址信息在大数据分析中占据非常重要的地位,地址特征挖掘作为文本挖掘的一种,其重要性也越来越明显。对中文地址文本进行分词处理是进行文本挖掘的基础,这是由中文的特点决定的。比如对中文地址文本“浙江省杭州市余杭区五常街道荆丰社区文一西路”进行分词处理后,可以得到包括浙江省、杭州市、余杭区、五常街道、荆丰社区、文一西路这几个词的地址文本,分词处理后的地址文本中的每个词都有其对应的地址含义(比如单独看浙、江、省这三个字,不具备任何地址含义,但将其组合后的词浙江省就有了对应的地址含义)。在很多情况下,对于一个中文地址文本,若只提取其中的部分词,提取的词在很多情况下仍具有较强的可区别性。如图1所示,为在文本分类中对中文地址文本进行特征提取的过程。从图1中可以看出,在文本挖掘中,首先对中文地址文本进行分词处理,然后进行特征提取,也即从中文地址文本中进行取词,接下来就是基于取词 ...
【技术保护点】
一种特征提取方法,其特征在于,包括:确定进行分词处理后的地址文本;所述进行分词处理后的地址文本中包含N个词,所述N为大于1的整数;根据预先设置的取词数和跳词数,从所述进行分词处理后的地址文本中取词,构成所述进行分词处理后的地址文本的特征词串;其中,每个特征词串中包含的所取的词的个数等于所述取词数,且每个特征词串中存在两个相邻的词在所述地址文本中相隔的词数量等于所述跳词数。
【技术特征摘要】
1.一种特征提取方法,其特征在于,包括:确定进行分词处理后的地址文本;所述进行分词处理后的地址文本中包含N个词,所述N为大于1的整数;根据预先设置的取词数和跳词数,从所述进行分词处理后的地址文本中取词,构成所述进行分词处理后的地址文本的特征词串;其中,每个特征词串中包含的所取的词的个数等于所述取词数,且每个特征词串中存在两个相邻的词在所述地址文本中相隔的词数量等于所述跳词数。2.如权利要求1所述的方法,其特征在于,根据预先设置的取词数和跳词数,从所述进行分词处理后的地址文本中取词,构成所述进行分词处理后的地址文本的特征词串,具体包括:预先设置取词数为n,以及预先设置跳词数为从1至k的整数,所述n为大于1、且小于N的整数,所述k为大于1、且小于N-1的整数;根据当前跳词数s,在所述进行分词处理后的地址文本中,从当前位置的词开始选取n个词,得到所述特征词串;s为大于0、且小于或等于k的整数。3.如权利要求2所述的方法,其特征在于,根据当前跳词数s,在所述进行分词处理后的地址文本中,从当前位置的词开始选取n个词,得到所述特征词串,包括:在所述进行分词处理后的地址文本中,从所述当前位置的词开始,连续选取n个词,得到第一词串;在所述进行分词处理后的地址文本中,确定从所述当前位置的词开始连续选取n个词之后的剩余词;在所述剩余词的数量大于或等于s时,从所述剩余词中的第一个词开始,连续选取s个词,得到第二词串;在所述第一词串中除第一个词之外的其它词中,确定第一目标词,以及在所述第二词串中确定与所述第一目标词个数相同的第二目标词;通过将所述第一词串中的所述第一目标词替换为所述第二目标词,确定所述特征词串。4.如权利要求3所述的方法,其特征在于,在所述第一词串中除第一个词之外的其它词中,确定第一目标词,以及在所述第二词串中确定与所述第一目标词个数相同的第二目标词,包括:分别将所述第一词串中的第二个词到最后一个词作为起始跳词,执行以下操作:当在所述第一词串中,从所述起始跳词开始到所述第一词串的第n个词的词数量q大于或等于s时,将从所述起始跳词开始的连续s个词确定为所述第一目标词,以及将所述第二词串中的词确定为所述第二目标词;q为大于1、且小于n的整数;当在所述第一词串中,从所述起始跳词开始到所述第一词串的第n个词的词数量q小于s时,将从所述起始跳词开始到第n个词的q个词确定为第一目标词,以及从所述第二词串中最后一个词开始,向着第二词串中第一个词的方向,连续选取q个词作为第二目标词。5.如权利要求4所述的方法,其特征在于,通过将所述第一词串中的所述第一目标词替换为所述第二目标词,确定所述特征词词串,包括:将所述第一词串中的所述第一目标词替换为所述第二目标词,得到第三词串;按照所述进行分词处理后的地址文本中N个词排列的先后顺序,对所述第三词串中的词进行重新排序,得到所述特征词串。6.如...
【专利技术属性】
技术研发人员:王国印,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。