当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于文本聚类的分布式索引构建方法及系统技术方案

技术编号:13397177 阅读:59 留言:0更新日期:2016-07-23 17:34
本发明专利技术公开了一种基于文本聚类的分布式索引构建方法及系统,其中,所述方法包括:对非结构化文本进行格式化和分词预处理,将预处理结果存储在原来的分布式节点上;对所述预处理结果进行过滤与特征提取处理,获取处理后的文本词汇特征向量;采用Canopy‑Kmeans聚类算法对所述文本词汇特征向量进行聚类处理,获取所述文本词汇特征向量的K个聚簇;将所述K个聚簇的每个聚簇分布在一个或多个分布式节点上;采用索引引擎对所述分布在一个或多个分布式节点上的所述K个聚簇进行建立全文索引处理,获取K个全文索引;实施本发明专利技术实施例,用于构建一种用于检索的分布式索引方式,给予用户一种快速的索引方式,提高用户的使用体验感。

【技术实现步骤摘要】

【技术保护点】
一种基于文本聚类的分布式索引构建方法,其特征在于,所述方法包括:对非结构化文本进行格式化和分词预处理,将预处理结果存储在分布式节点上;对所述预处理结果进行过滤与特征提取处理,获取处理后的文本词汇特征向量;采用Canopy‑Kmeans聚类算法对所述文本词汇特征向量进行聚类处理,获取所述文本词汇特征向量的K个聚簇;将所述K个聚簇的每个聚簇分布在一个或多个分布式节点上;采用索引引擎对所述分布在一个或多个分布式节点上的所述K个聚簇进行建立全文索引处理,获取K个全文索引。

【技术特征摘要】

【专利技术属性】
技术研发人员:林格邓现
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1