文本特征提取方法、文本分类方法及装置制造方法及图纸

技术编号:15910729 阅读:45 留言:0更新日期:2017-08-01 22:28
本申请实施例提供一种文本特征提取、文本分类方法及装置,用以解决方法存在过于依赖已有分词器,无法提取未登录的词条等文本特征的问题。文本特征提取方法包括:确定待提取文本特征的第一文本,以及至少一个用于提取文本特征的第一滑动窗口和相应的滑动步长;针对每一第一滑动窗口,从设定的初始滑动位置开始,沿着构成所述第一文本的字符的排列路径,以该第一滑动窗口相应的滑动步长滑动该第一滑动窗口,并提取滑动过程中该第一滑动窗口内的字符串,直至滑过构成所述第一文本的各字符;将提取的字符串作为所述第一文本的文本特征输出。

Text feature extraction method, text classification method and device

The embodiment of the present invention provides a text feature extraction method and a text classification method and a device for solving the problem that the method is too dependent on the existing word segmentation device and can not extract the text features such as unlisted entries. The text feature extraction method includes: determining a first text feature extraction of text, and at least one used to extract text features the first sliding window and the corresponding sliding step; for each of the first sliding window, starting from the initial position of the slide set, arranged along the path to form the first text characters, the first sliding window in the first step sliding sliding sliding window corresponding, and extract the sliding process of the first string in the sliding window, until the first slide each character in the text; the extracted text feature string as an output of the first text.

【技术实现步骤摘要】
文本特征提取方法、文本分类方法及装置
本申请涉及互联网数据处理
,尤其涉及一种文本特征提取、文本分类方法及装置。
技术介绍
随着微博、社交网站和即时通讯工具等应用的发展,越来越多的信息开始以短文本的形式呈现,并且呈爆炸式增长,尤其是大型电子商务的服务中心接收到的咨询。为了高效地处理海量的短文本信息,通常需要先对短文本信息进行自动分类,而后再按照类别对短文本信息进行相应的处理,而文本特征提取则是文本分类的重要基础。现有的文本特征提取方法大多通过对文本使用分词算法进行分词处理后得到文本特征。常见的分词算法是基于词典匹配的算法。词典是基于词典的匹配算法所必须的数据。现有技术中,词典生成都必须依靠人工筛选和分词器切分,这就使得当面对新的业务,微博的评论或商品的评论等比较自由的短文本的时候,由于会出现未在已有的分词器使用的词典中登录的新词语,因此,分词器就无法切分出正确的词条,分词效果就不好。若想取得较好的分词效果,就要不断的更新或优化词典和优化分词算法,而且不同的业务就要更新或优化不同的词典。例如,针对下表(1)中所示的客户问题,如果是由比较常规的分词器,不知道“支付宝”以及“余额宝”本文档来自技高网...
文本特征提取方法、文本分类方法及装置

【技术保护点】
一种文本特征提取方法,其特征在于,包括:确定待提取文本特征的第一文本,以及至少一个用于提取文本特征的第一滑动窗口和相应的滑动步长;针对每一第一滑动窗口,从设定的初始滑动位置开始,沿着构成所述第一文本的字符的排列路径,以该第一滑动窗口相应的滑动步长滑动该第一滑动窗口,并提取滑动过程中该第一滑动窗口内的字符串,直至滑过构成所述第一文本的各字符;将提取的字符串作为所述第一文本的文本特征输出。

【技术特征摘要】
1.一种文本特征提取方法,其特征在于,包括:确定待提取文本特征的第一文本,以及至少一个用于提取文本特征的第一滑动窗口和相应的滑动步长;针对每一第一滑动窗口,从设定的初始滑动位置开始,沿着构成所述第一文本的字符的排列路径,以该第一滑动窗口相应的滑动步长滑动该第一滑动窗口,并提取滑动过程中该第一滑动窗口内的字符串,直至滑过构成所述第一文本的各字符;将提取的字符串作为所述第一文本的文本特征输出。2.如权利要求1所述的方法,其特征在于,用于提取文本特征的第一滑动窗口的个数大于1,各第一滑动窗口的尺寸不相同且相应的滑动步长均为1个字符,所述设定的初始滑动位置为所述第一文本的起始字符所在位置;针对每一第一滑动窗口,从设定的初始滑动位置开始,沿着构成所述第一文本的字符的排列路径,以该第一滑动窗口相应的滑动步长滑动该第一滑动窗口,并提取滑动过程中该第一滑动窗口内的字符串,直至滑过构成所述第一文本的各字符,包括:从所述第一文本的起始字符所在位置开始,遍历所述第一文本中的字符,执行以下步骤:步骤a1、将当前遍历的字符所在位置作为各第一滑动窗口的当前开始位置;步骤a2、从尺寸最小的第一滑动窗口的当前结束位置开始,遍历每个第一滑动窗口的当前结束位置,执行以下步骤a3至步骤a5,直至尺寸最大的第一滑动窗口的当前结束位置:步骤a3、判断当前遍历的当前结束位置是否为所述第一文本的结束字符所在位置,若是,则执行步骤a4,若否,则执行步骤a5;步骤a4、取出当前开始位置和当前遍历的当前结束位置之间的字符串,之后结束;步骤a5、取出当前开始位置和当前遍历的当前结束位置之间的字符串。3.如权利要求1所述的方法,其特征在于,确定待提取文本特征的第一文本之后,针对每一第一滑动窗口,从设定的初始滑动位置开始,沿着构成所述第一文本的字符的排列路径,以该第一滑动窗口相应的滑动步长滑动该第一滑动窗口,并提取滑动过程中该第一滑动窗口内的字符串,直至滑过构成所述第一文本的各字符之前,所述方法还包括:确定所述第一文本中包含重复文本,其中,重复文本包括单字符串重复文本和多字符串重复文本;对所述第一文本进行去重处理,得到第二文本;针对每一第一滑动窗口,从设定的初始滑动位置开始,沿着构成所述第一文本的字符的排列路径,以该第一滑动窗口相应的滑动步长滑动该第一滑动窗口,并提取滑动过程中该第一滑动窗口内的字符串,直至滑过构成所述第一文本的各字符,具体为:针对每一第一滑动窗口,从设定的初始滑动位置开始,沿着构成所述第二文本的字符的排列路径,以该第一滑动窗口相应的滑动步长滑动该第一滑动窗口,并提取滑动过程中该第一滑动窗口内的字符串,直至滑过构成所述第一文本的各字符。4.如权利要求3所述的方法,其特征在于,确定待提取文本特征的第一文本之后,对所述第一文本进行去重处理,得到第二文本之前,所述方法还包括:确定所述第一文本中包含空格和/或单个标点符号;若包含空格,则用设定字符对所述第一文本中包含的空格进行替换处理,其中,所述设定字符为除标点符号和空格外的字符;若包含单个标点符号,则用设定字符对所述第一文本中包含的空格进行替换处理;若包含空格和单个标点符号,则用设定字符分别对所述第一文本中包含的空格和单个标点符号进行替换处理。5.如权利要求1所述的方法,其特征在于,确定待提取文本特征的第一文本之后,所述方法还包括:若确定所述第一文本中包含重复文本,则提取所述第一文本中包含的重复文本,其中,重复文本包括单字符串重复文本和多字符串重复文本;将提取的重复文本作为所述第一文本的文本特征输出。6.如权利要求5所述的方法,其特征在于,若确定所述第一文本中包含重复文本,则提取所述第一文本中包含的重复文本,包括:判断所述第一文本中是否包含单字符串重复文本;若包含单字符串重复文本,则提取所述单字符串重复文本;若不包含单字符串重复文本,则判断所述第一文本中是否包含多字符串重复文本;若包含多字符串重复文本,则提取所述多字符串重复文本。7.如权利要求6所述的方法,其特征在于,判断所述第一文本中是否包含单字符串重复文本;若包含单字符串重复文本,则提取所述单字符串重复文本;若不包含单字符串重复文本,则判断所述第一文本中是否包含多字符串重复文本;若包含多字符串重复文本,则提取所述多字符串重复文本,包括:步骤b1:将所述第一文本的起始字符所在位置作为最小第二滑动窗口的当前开始位置,其中,最小第二滑动窗口的尺寸为2个字符;步骤b2:判断最小第二滑动窗口的当前开始位置距离所述第一文本的结束字符所在位置是否小于设定值,该设定值为最小第二滑动窗口的尺寸减1个字符;若否,则执行步骤b3,若是,则结束;步骤b3:判断第三文本中是否包含单字符串重复文本,所述第三文本为从最小第二滑动窗口的当前开始位置处的字符至第一文本的结束字符之间的字符,若是,则执行步骤b4;若否,则执行步骤b6;步骤b4:提取第三文本中的单字符串重复文本,之后执行步骤b5;步骤b5:用单字符串重复文本的结束位置处的字符之后相邻的字符所在位置更新步骤b2中的最小第二滑动窗口的当前开始位置,之后跳转至步骤b2;步骤b6:判断最小第二滑动窗口的当前开始位置距离所述第一文本的结束字符所在位置是否小于最小第二滑动窗口的尺寸,若否,则执行步骤b7,若是,则执行步骤b10;步骤b7:判断第四文本中是否包含多字符串重复文本,所述第四文本为从最小第二滑动窗口的当前开始位置处的字符至第一文本的结束字符之间的字符,若是,则执行步骤b8,若否,则执行步骤b10;步骤b8:提取第四文本中的多字符串重复文本,之后执行步骤b9;步骤b9:用多字符串重复文本的结束位置处的字符之后相邻的字符所在位置更新步骤b2中的最小第二滑动窗口的当前开始位置,之后跳转至步骤b2;步骤b10:用最小第二滑动窗口的当前开始位置处的字符之后的下一个字符所在位置更新步骤b2中的最小第二滑动窗口的当前开始位置,之后跳转至步骤b2。8.如权利要求7所述的方法,其特征在于,所述步骤b3,包括:步骤b31:判断最小第二滑动窗口的当前开始位置处的字符与最小第二滑动窗口的当前结束位置处的字符是否相同;若相同,则执行步骤b32;若不相同,则执行步骤b33;步骤b32:沿着构成第三文本的字符的排列路径,查找最小第二滑动窗口外的字符中,第一个与最小第二滑动窗口的当前开始位置处的字符不相同的字符,并将找到的不相同的字符所在位置作为单字符串重复文本的结束位置处的字符之后的一个字符所在位置;步骤b33:执行判断最小第二滑动窗口的当前开始位置距离所述第一文本的结束字符所在位置是否小于最小第二滑动窗口的尺寸的步骤。9.如权利要求7所述的方法,其特征在于,所述步骤b7,包括:步骤b701:将第四文本的长度的一半作为最大第二滑动窗口的尺寸;步骤b702:判断最小第二滑动窗口的当前开始位置是否为第一文本的起始字符所在位置,若是,则执行步骤b703;若否,则执行步骤b704;步骤b703:用第一文本的起始字符之后相邻的字符所在位置作为第四文本的起始字符的位置,之后执行步骤b705;步骤b704:将最小第二滑动窗口的当前开始位置作为第四文本的起始字符的位置,之后执行步骤b705;步骤b705:将最小第二滑动窗口的尺寸作为当前第二窗口的尺寸;之后执行步骤706;步骤706:判断当前第二窗口的尺寸是否不大于最大第二滑动窗口的尺寸;若是,则执行步骤b707;若否,则执行步骤b713;步骤b707:判断当前第二滑动窗口中的字符串和第三滑动窗口中的字符串是否相同,其中,第三滑动窗口是当前第二滑动窗口沿着第四文本的排列路径滑动当前第二滑动窗口的尺寸个字符后得到的滑动窗口;若相同,则执行步骤b708;若不相同,则执行步骤b711;步骤b708:保存当前第二滑动窗口的字符串和第三滑动窗口中的字符串,之后执行步骤b709;步骤b709:将当前第二滑动窗口沿着第四文本的排列路径滑动当前第二滑动窗口的尺寸个字符,之后执行步骤b710;步骤b710:将当前第二滑动窗口的结束位置作为第四文本的起始字符的位置,之后执行步骤b707;步骤b711:用当前第二滑动窗口的尺寸加1个字符后得到的值更新步骤b707中的当前第二滑动窗口的尺寸,之后执行步骤b712;步骤b712:用更新尺寸后的当前第二滑动窗口外至第一文本结束字符之间的字符的个数的一半更新步骤b706中的最大第二滑动窗口的尺寸,之后跳转至步骤b706;步骤b713:用第四文本的起始字符的位置处的字符之后相邻的字符所在位置更新最小第二滑动窗口的当前开始位置,之后跳转至步骤b2。10.如权利要求1所述的方法,其特征在于,确定待提取文本特征的第一文本之后,针对每一滑动窗口,从设定的初始滑动位置开始,沿着构成第一文本的字符的排列路径,以该滑动窗口相应的滑动步长滑动该滑动窗口,并提取滑动过程中该滑动窗口内的字符串,直至滑过构成所述第一文本的各字符之前,所述方法还包括:对所述第一文本进行进行公共预处理,所述公共预处理包括以下一种或多种的组合:过滤文本中的网络地址信息、过滤文本中的设定日期信息、过滤文本中的钱款信息、过滤文本中的订单号信息、将文本中的多个空格替换成一个空格。11.如权利要求1所述的方法,其特征在于,确定待提取文本特征的第一文本之后,针对每一滑动窗口,从设定的初始滑动位置开始,沿着构成第一文本的字符的排列路径,以该滑动窗口相应的滑动步长滑动该滑动窗口,并提取滑动过程中该滑动窗口内的字符串,直至滑过构成所述第一文本的各字符之前,所述方法还包括:对所述第一文本进行进行自定义预处理,所述自定义预处理包括以下一种或多种的组合:过滤文本中的设定地址和名称信息、过滤文本中的设定前缀信息、过滤文本中的设定后...

【专利技术属性】
技术研发人员:王雄威
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1