当前位置: 首页 > 专利查询>鲁东大学专利>正文

一种中文分词和大数据信息检索方法及装置制造方法及图纸

技术编号:21200229 阅读:29 留言:0更新日期:2019-05-25 01:21
本发明专利技术实施例提供一种中文分词和大数据信息检索方法及装置,该中文分词方法包括:获取中文文档;基于双数组Trie树算法对所述中文文档进行切分,得到中文字串;基于双向最大匹配算法对所述中文字串进行匹配,得到切分后的中文分词。本发明专利技术实施例提供的一种中文分词和大数据信息检索方法及装置,能够高效的对中文进行分词,进而在此基础上实现大数据下的高效信息检索。

A Method and Device for Chinese Word Segmentation and Large Data Information Retrieval

The embodiment of the present invention provides a Chinese word segmentation and large data information retrieval method and device. The Chinese word segmentation method includes: acquiring Chinese documents; segmenting the Chinese documents based on the double array Trie tree algorithm to obtain the Chinese string; matching the Chinese string based on the bidirectional maximum matching algorithm to obtain the segmented Chinese word segmentation. The embodiment of the present invention provides a method and device for Chinese word segmentation and large data information retrieval, which can efficiently segment Chinese words and then realize efficient information retrieval under large data.

【技术实现步骤摘要】
一种中文分词和大数据信息检索方法及装置
本专利技术涉及信息检索领域,尤其涉及一种中文分词和大数据信息检索方法及装置。
技术介绍
从海量数据中实现高效的检索是目前很多行业的迫切需求,现有的大数据信息检索方法主要有NoSQL技术和全文检索技术。全文检索技术的出现,领导了信息检索领域的一场革命。相对于传统的索引检索,全文检索技术提供了一个更新、更强大的搜索功能。而利用Lucene技术可以为任意一个应用系统添加一个专属于其自身的捜索引擎,该搜索引擎不仅可以搜索到网页信息,还能搜索到系统内部的数据文档信息和数据库中的数据信息。高效检索的前提是进行准确的分词,在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,而现有的Lucene技术对西方语言的分词效果远远优于对中文的分词效果。因此现在急需一种中文分词方法以及基于中文分词方法的信息检索方法及系统。
技术实现思路
本专利技术实施例为克服上述技术缺陷,提供一种中文分词和大数据信息检索方法及装置。第一方面,本专利技术实施例提供一种中文分词方法,包括:获取中文文档;基于双数组Trie树算法对所述中文文档进行切分,得到中文字串;基于双向最大匹配算法对所述中文字串进行匹配,得到切分后的中文分词。第二方面,本专利技术实施例提供一种基于上述中文分词方法的大数据信息检索方法,包括:接收查询请求,根据所述查询请求获取预处理后的信息检索文档;对所述信息检索文档的西文文档分词得到西文分词,根据第一方面所述中文分词方法对所述信息检索文档的中文文档进行分词,得到中文分词;将所述西文分词和所述中文分词构造成查询语法树,根据所述查询语法树和查询类型,进行信息检索。第三方面,本专利技术实施例提供一种中文分词装置,包括:获取单元,用于获取中文文档;切分单元,用于基于双数组Trie树算法对所述中文文档进行切分,得到中文字串;分词单元,用于基于双向最大匹配算法对所述中文字串进行匹配,得到切分后的中文分词。第四方面,本专利技术实施例提供一种基于上述中文分词方法的大数据信息检索装置,包括:接收模块,用于接收查询请求,根据所述查询请求获取预处理后的信息检索文档;分词模块,用于对所述信息检索文档的西文文档分词得到西文分词,根据第一方面所述中文分词方法对所述信息检索文档的中文文档进行分词,得到中文分词;检索模块,用于将所述西文分词和所述中文分词构造成查询语法树,根据所述查询语法树和查询类型,进行信息检索。第五方面,本专利技术实施例提供一种电子设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面或第二方面所述的方法。第六方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如第一方面或第二方面所述的方法。本专利技术实施例提供的一种中文分词和大数据信息检索方法及装置,能够高效的对中文进行分词,进而在此基础上实现大数据下的高效信息检索。附图说明图1为本专利技术实施例提供的一种中文分词方法的流程示意图;图2为本专利技术实施例提供的一种大数据信息检索方法的流程示意图;图3为本专利技术实施例提供的一种中文分词装置的结构示意图;图4为本专利技术实施例提供的一种大数据信息检索装置的结构示意图;图5为本专利技术实施例提供的一种电子设备的实体结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。中文分词指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:1.与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。2.在中文里,“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。图1为本专利技术实施例提供的一种中文分词方法的流程示意图,如图1所示,包括:步骤11,获取中文文档;步骤12,基于双数组Trie树算法对所述中文文档进行切分,得到中文字串;步骤13,基于双向最大匹配算法对所述中文字串进行匹配,得到切分后的中文分词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。本专利技术实施例提供的中文分词方法,首先获取信息检索文档中的中文文档,然后基于双数组Trie树算法对中文文档进行切分。双数组Trie(Double-ArrayTrie)是一种空间复杂度低的Trie树,应用于字符区间大的语言(如中文、日文等)分词领域,由两个整数线性数组构成,一个是base[],另一个是check[],base[]数组中的每个元素相当于Trie树中的1个节点,其值作为转移到下一个状态的基值,check[]的值是当前状态的前1个状态。设数组下标为i,如果base[i],check[i]均为0,表示该位置为空。如果base[i]为负值,表示该状态为词语。check值相当于检验值,用来检验本状态是否存在,例如在状态s,输入变量a,转移到状态t必须满足以下条件:t=base[s]+a,check[t]=s,即check[]数组记录着t状态从哪个状态转换而来。双数组Trie(Double-ArrayTrie)结构是Trie结构的压缩形式,仅用两个线性数组来表示Trie树,该结构有效结合了数字搜索树(DigitalSearchTree)检索时间高效的特点和链式表示的Trie空间结构紧凑的特点。双数组Trie的本质是一个确定有限状态自动机,每个节点代表自动机的一个状态,根据变量不同,进行状态转移,当到达结束状态或无法转移时,完成一次查询操作。在双数组所有键中包含的字符之间的联系都是通过简单的数学加法运算表示,不仅提高了检索速度,而且省去了链式结构中使用的大量指针,节省了存储空间。举例来说明用双数组Trie构造分词算法词典的过程。假定词表中只有“啊,阿根廷,阿胶,阿拉伯,阿拉伯人,埃及”这几个词。首先对词表中所有出现的10个汉字进行编码:啊-1,阿-2,唉-3,根-4,胶-5,拉-6,及-7,廷-8,伯-9,人-10。对于每一个汉字,需要确定一个base值,使得对于本文档来自技高网...

【技术保护点】
1.一种中文分词方法,其特征在于,包括:获取中文文档;基于双数组Trie树算法对所述中文文档进行切分,得到中文字串;基于双向最大匹配算法对所述中文字串进行匹配,得到切分后的中文分词。

【技术特征摘要】
1.一种中文分词方法,其特征在于,包括:获取中文文档;基于双数组Trie树算法对所述中文文档进行切分,得到中文字串;基于双向最大匹配算法对所述中文字串进行匹配,得到切分后的中文分词。2.根据权利要求1所述的方法,其特征在于,针对所述中文字串中的未登录词,所述方法还包括:根据文本规则对所述未登录词进行分词,得到分词结果;基于N-Gram算法,根据所述分词结果进行N-Gram统计,根据统计结果组成gram;对所述gram进行频率统计,将符合频率阈值的gram进行停用词过滤,得到最终新词;根据所述最终新词更新动态词典,所述动态词典用于存储所述未登录词。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若所述动态词典的任一动态词在预设时间内查询命中,则更新所述动态词的生存时间;否则,所述动态词失效。4.一种大数据信息检索方法,其特征在于,包括:接收查询请求,根据所述查询请求获取预处理后的信息检索文档;对所述信息检索文档的西文文档分词得到西文分词,根据权利要求1-3任一项所述中文分词方法对所述信息检索文档的中文文档进行分词,得到中文分词;将所述西文分词和所述中文分词构造成查询语法树,根据所述查询语法树和查询类型,进行信息检索。5.根据权利要求4所述的方法,其特征在于,在所述获取预处理后的信息检索文档之前,所述方法还包括:获取信息检索文档;解析所述信息检索文档,将所述信息检索文档...

【专利技术属性】
技术研发人员:王庆赵启正岳峻贾世祥李雪艳战超
申请(专利权)人:鲁东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1