一种中文分词和大数据信息检索方法及装置制造方法及图纸

技术编号：21200229 阅读：29 留言：0更新日期：2019-05-25 01:21

本发明专利技术实施例提供一种中文分词和大数据信息检索方法及装置，该中文分词方法包括：获取中文文档；基于双数组Trie树算法对所述中文文档进行切分，得到中文字串；基于双向最大匹配算法对所述中文字串进行匹配，得到切分后的中文分词。本发明专利技术实施例提供的一种中文分词和大数据信息检索方法及装置，能够高效的对中文进行分词，进而在此基础上实现大数据下的高效信息检索。

A Method and Device for Chinese Word Segmentation and Large Data Information Retrieval

The embodiment of the present invention provides a Chinese word segmentation and large data information retrieval method and device. The Chinese word segmentation method includes: acquiring Chinese documents; segmenting the Chinese documents based on the double array Trie tree algorithm to obtain the Chinese string; matching the Chinese string based on the bidirectional maximum matching algorithm to obtain the segmented Chinese word segmentation. The embodiment of the present invention provides a method and device for Chinese word segmentation and large data information retrieval, which can efficiently segment Chinese words and then realize efficient information retrieval under large data.

全部详细技术资料下载

【技术实现步骤摘要】
一种中文分词和大数据信息检索方法及装置
本专利技术涉及信息检索领域，尤其涉及一种中文分词和大数据信息检索方法及装置。
技术介绍
从海量数据中实现高效的检索是目前很多行业的迫切需求，现有的大数据信息检索方法主要有NoSQL技术和全文检索技术。全文检索技术的出现，领导了信息检索领域的一场革命。相对于传统的索引检索，全文检索技术提供了一个更新、更强大的搜索功能。而利用Lucene技术可以为任意一个应用系统添加一个专属于其自身的捜索引擎，该搜索引擎不仅可以搜索到网页信息，还能搜索到系统内部的数据文档信息和数据库中的数据信息。高效检索的前提是进行准确的分词，在自然语言处理技术中，中文处理技术比西文处理技术要落后很大一段距离，许多西文的处理方法中文不能直接采用，就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础，中文分词的准确与否，常常直接影响到对搜索结果的相关度排序，而现有的Lucene技术对西方语言的分词效果远远优于对中文的分词效果。因此现在急需一种中文分词方法以及基于中文分词方法的信息检索方法及系统。
技术实现思路
本专利技术实施例为克服上述技术缺陷，提供一种中文分词和大数据信息检索方法及装置。第一方面，本专利技术实施例提供一种中文分词方法，包括：获取中文文档；基于双数组Trie树算法对所述中文文档进行切分，得到中文字串；基于双向最大匹配算法对所述中文字串进行匹配，得到切分后的中文分词。第二方面，本专利技术实施例提供一种基于上述中文分词方法的大数据信息检索方法，包括：接收查询请求，根据所述查询请求获取预处理后的信息检索文档；对所述信息检索文档的西文文档...

【技术保护点】
1.一种中文分词方法，其特征在于，包括：获取中文文档；基于双数组Trie树算法对所述中文文档进行切分，得到中文字串；基于双向最大匹配算法对所述中文字串进行匹配，得到切分后的中文分词。

【技术特征摘要】
1.一种中文分词方法，其特征在于，包括：获取中文文档；基于双数组Trie树算法对所述中文文档进行切分，得到中文字串；基于双向最大匹配算法对所述中文字串进行匹配，得到切分后的中文分词。2.根据权利要求1所述的方法，其特征在于，针对所述中文字串中的未登录词，所述方法还包括：根据文本规则对所述未登录词进行分词，得到分词结果；基于N-Gram算法，根据所述分词结果进行N-Gram统计，根据统计结果组成gram；对所述gram进行频率统计，将符合频率阈值的gram进行停用词过滤，得到最终新词；根据所述最终新词更新动态词典，所述动态词典用于存储所述未登录词。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：若所述动态词典的任一动态词在预设时间内查询命中，则更新所述动态词的生存时间；否则，所述动态词失效。4.一种大数据信息检索方法，其特征在于，包括：接收查询请求，根据所述查询请求获取预处理后的信息检索文档；对所述信息检索文档的西文文档分词得到西文分词，根据权利要求1-3任一项所述中文分词方法对所述信息检索文档的中文文档进行分词，得到中文分词；将所述西文分词和所述中文分词构造成查询语法树，根据所述查询语法树和查询类型，进行信息检索。5.根据权利要求4所述的方法，其特征在于，在所述获取预处理后的信息检索文档之前，所述方法还包括：获取信息检索文档；解析所述信息检索文档，将所述信息检索文档...

【专利技术属性】
技术研发人员：王庆，赵启正，岳峻，贾世祥，李雪艳，战超，
申请(专利权)人：鲁东大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人