基于数据挖掘的数据搜索方法技术

技术编号：13840011 阅读：63 留言：0更新日期：2016-10-16 06:45

本发明专利技术提供了一种基于数据挖掘的数据搜索方法，该方法包括：预处理用户检索词，计算文本向量逆向词频和近似度矩阵，得到对用户输入的检索词的分类结果，根据分类结果进行检索。本发明专利技术提出了一种基于数据挖掘的数据搜索方法，利用搜索词的特征表示理解用户意图，并通过改进的索引机制提高了搜索引擎的效率，增强了用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据搜索，特别涉及一种基于数据挖掘的数据搜索方法。
技术介绍
随着互联网的发展，搜索引擎要处理的数据量越来越大，对搜索引擎的性能要求越来越高。高效的针对用户的搜索词，可以挖掘出一些潜在的用户意图，其中根据搜索词的分类可以得知用户想搜索到哪个领域的结果，针对用户意图及这个领域的特点可以给用户推荐满足用户需求的应用，来优化搜索结果。为了提高信息检索效率，信息检索系统一般都采用基于云的并行计算平台和索引技术。索引的结构设计、存储方式、检索操作和动态更新算法对信息检索的效率有很大的影响。然而，现有技术的搜索引擎对搜索词的处理不够完善，没有特别对用户意图进行有效预测。并且在索引处理上，索引的添加需要将新增的记录与原有的索引的相同项合并。在HDFS中这项操作需要重新创建块。每个DataNode上的副本信息也需要更新。而且在索引中的删除内容只能删除整个块，并产生大量的I/O通信，浪费大量的时间和资源。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了一种基于数据挖掘的数据搜索方法，包括：预处理用户检索词，计算文本向量逆向词频和近似度矩阵，得到对用户输入的检索词的分类结果，根据分类结果进行检索。优选地，所述计算文本向量逆向词频和近似度矩阵，进一步包括：结合分词特性与结合领域知识的语义权值，在所有的DataNode均部署分
词工具包，在分词后获得文本的检索词以及该检索词在本文档的出现次数，以统计词频，扫描领域知识库，计算出该词的位置权值和语义跨度权值，再在第一个Map阶段调用语义近似度函数进行统计；然后在Reduce阶段计算每个词的...

【技术保护点】
一种基于数据挖掘的数据搜索方法，其特征在于，包括：预处理用户检索词，计算文本向量逆向词频和近似度矩阵，得到对用户输入的检索词的分类结果，根据分类结果进行检索。

【技术特征摘要】
1.一种基于数据挖掘的数据搜索方法，其特征在于，包括：预处理用户检索词，计算文本向量逆向词频和近似度矩阵，得到对用户输入的检索词的分类结果，根据分类结果进行检索。2.根据权利要求1所述的方法，其特征在于，所述计算文本向量逆向词频和近似度矩阵，进一步包括：结合分词特性与结合领域知识的语义权值，在所有的DataNode均部署分词工具包，在分词后获得文本的检索词以及该检索词在本文档的出现次数，以统计词频，扫描领域知识库，计算出该词的位置权值和语义跨度权值，再在第一个Map阶段调用语义近似度函数进行统计；然后在Reduce阶段计算每个词的逆向词频，将这些信息输出为第二个MapReduce的输入；在第二个Map阶段，计算语义近似度结果，如果近似度大于预设语义阈值，则返回语义权值，否则不加权，再组合所有的权值，得到最终语义权值；第二个Reduce阶段，对向量规格化处理；对于每一个文本...

【专利技术属性】
技术研发人员：赖真霖，文君，
申请(专利权)人：成都四象联创科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人