The invention relates to the large data field of the Internet, especially a dynamic N element segmentation method based on Lucene. Including 1) setting discontinuation words; 2) specifying different character sets; 3) preprocessing; 4) specifying participle granularity n; 5) participle of different character sets. By using a dynamic N element segmentation method based on Lucene, the invention can dynamically set the value of n with different character sets. When the word list is too large, the value of N can be enlarged. The present invention can set different character sets, such as Chinese character set, alphabetic character set, digital character set, Korean characters, Japanese characters, so many different countries can be compatible with word language, solves the segmentation system provided by Lucene and the third party Chinese language not compatible with word defects.
【技术实现步骤摘要】
一种基于Lucene的动态n元分词方法
本专利技术涉及互联网大数据领域,尤其涉及一种基于Lucene的动态n元分词方法。
技术介绍
现在大数据领域中增长最快,内容最复杂,也最具有价值的一类数据是机器数据,该数据已将占据大数据领域中的90%。目前的分词器对该类数据的处理存在较多问题,如分词后词表太长,查询时间长。目前Lucene自带的分词器,例如StandardAnalyzer标准分词器,根据空格和符号来完成分词;WhitespaceAnalyzer空格分词器,使用空格作为间隔符的词汇分割分词器;SimpleAnalyzer简单分词器,具备基本西方字符词汇的分词器等其他分词器,对英文来说是非常适合的,把单词切分成一个一个词根,但是对于中文来说只是简单把中文分成一个一个汉字,那么以上Lucene自带分词器的技术,相对于中文分词来说就显得相形见绌了,因为它无法满足中文,当然也包括一些其他国家的语言,如日文,韩文等分词需求。现在也出现一些第三方中文分器,例如:IKAnalyzerIK分词器以词典为基础的正反向全切分,以及正反向最大匹配切分的两种方法,是一个很好的中文分词器 ...
【技术保护点】
一种基于Lucene的动态n元分词方法,其特征在于,包括以下步骤:1)设置停用词,所述停用词的含义为,不进行分词的词,读到该词直接跳过忽略,即不建立索引的词;2)指定不同字符集,所述不同字符集是需要进行分词的词,即要建立索引的词,也即用户将查询的词;该字符集根据用户需求来指定;3)预处理,将需要进行分词的文档内容,进行以下处理,即将所有的英文大写字母转换成小写字母进行存储,建立索引;将所有全角的字符转换为半角字符进行存储,建立索引;将所有的中文繁体字转化为中文简体进行存储,建立索引;4)指定不同字符集的分词颗粒度n,对步骤2)中指定的字符集指定不同的分词方式,即设置分词的颗 ...
【技术特征摘要】
1.一种基于Lucene的动态n元分词方法,其特征在于,包括以下步骤:1)设置停用词,所述停用词的含义为,不进行分词的词,读到该词直接跳过忽略,即不建立索引的词;2)指定不同字符集,所述不同字符集是需要进行分词的词,即要建立索引的词,也即用户将查询的词;该字符集根据用户需求来指定;3)预处理,将需要进行分词的文档内容,进行以下处理,即将所有的英文大写字母转换成小写字母进行存储,建立索引;将所有全角的字符转换为半角字符进行存储,建立索引;将所有的中文繁体字转化为中文简体进行存储,建立索引;4)指定不同字符集的分词颗粒度n,对步骤2)中指定的字符集指定不同的分词方式,即设置分词的颗粒度n;5)分词,5-1)逐字读取文件内容,判断读取内容是否为空;如果读取内容为空就直接结束本步骤;不为空,进入下一步;5-2)判断是否是停用词,如果是停用词,直接跳过,从该停用词后面的内容开始,进入步骤5-1)读取文件内容;如果不是停用词,进入下一步;5-3)判断步骤5-2)中读取字符的字符类型,根据字符类型和步骤4)中预设的颗粒度进行循环读取词汇,直到下一个字符的字符类...
【专利技术属性】
技术研发人员:赵万亮,姜思远,王月铭,
申请(专利权)人:南京华飞数据技术有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。