【技术实现步骤摘要】
【技术保护点】
一种基于文本聚类的分布式索引构建方法,其特征在于,所述方法包括:对非结构化文本进行格式化和分词预处理,将预处理结果存储在分布式节点上;对所述预处理结果进行过滤与特征提取处理,获取处理后的文本词汇特征向量;采用Canopy‑Kmeans聚类算法对所述文本词汇特征向量进行聚类处理,获取所述文本词汇特征向量的K个聚簇;将所述K个聚簇的每个聚簇分布在一个或多个分布式节点上;采用索引引擎对所述分布在一个或多个分布式节点上的所述K个聚簇进行建立全文索引处理,获取K个全文索引。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。