基于数据挖掘的数据搜索方法技术

技术编号:13840011 阅读:63 留言:0更新日期:2016-10-16 06:45
本发明专利技术提供了一种基于数据挖掘的数据搜索方法,该方法包括:预处理用户检索词,计算文本向量逆向词频和近似度矩阵,得到对用户输入的检索词的分类结果,根据分类结果进行检索。本发明专利技术提出了一种基于数据挖掘的数据搜索方法,利用搜索词的特征表示理解用户意图,并通过改进的索引机制提高了搜索引擎的效率,增强了用户体验。

【技术实现步骤摘要】

本专利技术涉及数据搜索,特别涉及一种基于数据挖掘的数据搜索方法
技术介绍
随着互联网的发展,搜索引擎要处理的数据量越来越大,对搜索引擎的性能要求越来越高。高效的针对用户的搜索词,可以挖掘出一些潜在的用户意图,其中根据搜索词的分类可以得知用户想搜索到哪个领域的结果,针对用户意图及这个领域的特点可以给用户推荐满足用户需求的应用,来优化搜索结果。为了提高信息检索效率,信息检索系统一般都采用基于云的并行计算平台和索引技术。索引的结构设计、存储方式、检索操作和动态更新算法对信息检索的效率有很大的影响。然而,现有技术的搜索引擎对搜索词的处理不够完善,没有特别对用户意图进行有效预测。并且在索引处理上,索引的添加需要将新增的记录与原有的索引的相同项合并。在HDFS中这项操作需要重新创建块。每个DataNode上的副本信息也需要更新。而且在索引中的删除内容只能删除整个块,并产生大量的I/O通信,浪费大量的时间和资源。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种基于数据挖掘的数据搜索方法,包括:预处理用户检索词,计算文本向量逆向词频和近似度矩阵,得到对用户输入的检索词的分类结果,根据分类结果进行检索。优选地,所述计算文本向量逆向词频和近似度矩阵,进一步包括:结合分词特性与结合领域知识的语义权值,在所有的DataNode均部署分
词工具包,在分词后获得文本的检索词以及该检索词在本文档的出现次数,以统计词频,扫描领域知识库,计算出该词的位置权值和语义跨度权值,再在第一个Map阶段调用语义近似度函数进行统计;然后在Reduce阶段计算每个词的逆向词频,将这些信息输出为第二个MapReduce的输入;在第二个Map阶段,计算语义近似度结果,如果近似度大于预设语义阈值,则返回语义权值,否则不加权,再组合所有的权值,得到最终语义权值;第二个Reduce阶段,对向量规格化处理;对于每一个文本,只计算编号大于自己文本的近似度,即可计算出整个矩阵,其MapReduce环境下并行过程为:Map阶段:首先进行数据分割,将分割的数据由NameNode分配给DataNode,同时给DataNode编号,同时计算文本的近似度,当Map阶段结束后,将中间结果输出到本地作为Reduce阶段的输入;Reduce阶段:收集每一行的数据,并且汇总输出矩阵;然后采用优化划片的输入方式,将高维矩阵分块成小矩阵运算;Map阶段进行数据划片,根据划片偏移信息读取子矩阵A和B在本地做乘法,结果为矩阵C的一个子矩阵,输出到指定偏移位置;Reduce阶段计算矩阵C=AB;将对称矩阵通过正交相似变换表示成对称三对角矩阵;求解对称三对角矩阵的前K个最小特征向量,将对称三对角矩阵的运算最终转化为拉普拉斯矩阵与向量的相乘运算,得到矩阵的最小特征值和特征向量后,计算每个文本到某一集合的近似度。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种基于数据挖掘的数据搜索方法,利用搜索词的特征表示理解用户意图,并通过改进的索引机制提高了搜索引擎的效率,增强了用户体
验。附图说明图1是根据本专利技术实施例的基于数据挖掘的数据搜索方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种基于数据挖掘的数据搜索方法。图1是根据本专利技术实施例的基于数据挖掘的数据搜索方法流程图。本专利技术根据用户输入的检索词,使用预先训练好的分类器对检索词的扩充文本进行分类,将分类结果发送给应用系统,识别检索词的属性和用户意图,获得模板和数据,再以Web应用的形式呈现到搜索引擎中。所述应用系统包括:代理服务器,保护内部系统端口不对外暴露,并且支持高并发、负载均衡,也有助于提高访问速度。Web服务器:采用MVC的架构,调用各个服务,将数据进行聚集,最终与页面样式进行整合。缓存服务器:将一些更新频率低的信息存储在缓存服务器中,而不需要反复检索数据库,缓解数据库的压力。属性识别服务:识别出子类别及用户意图,来选择适合于用户需求的应用
模板。分领域资源库:根据不同的领域,建立自己的资源库。数据库:采用主库和从库的结构,主库负责写入,从库负责读取,实现读写分离。另外主库之间需要同步,从库也要与主库的数据保持同步。检索服务器:当检索是带有一定条件,或有排序的需求时,使用索引的技术来快速根据检索条件得到结果。针对检索词的分类,本专利技术利用搜索引擎对检索词进行文本扩充,将检索词扩充为搜索引擎结果中的前k条摘要信息,k为扩充后的词条数,将扩充文本的分类结果作为原搜索文本的分类结果。在检索词预处理阶段,是将检索词进行扩充,用向量的形式存储,丢弃广告、图片、Web应用等信息量较少的结果,过滤网页标签,提取前k条摘要为文本的扩充结果,然后对扩充文本进行预处理,预处理分为分词、丢弃停用词。每个摘要,即一个文档,里面包含的是特征项集合,将它用向量来表示。然后在训练阶段,根据训练集中的文本的扩充信息,进行特征选择、特征加权、建立分类器。具体包括将训练集中的检索词扩充为在检索词预处理阶段中获取到的该检索词的扩充文本。利用特征选择方法选择代表性特征项,将大数量级的特征项降维,使用本专利技术改进的适用于文本分类的改进逆向词频方法进行特征加权,最后使用文本分类的方法建立分类器,供测试阶段使用。在分类阶段,将待分类的检索词进行分类。具体包括先将待分类检索词扩充为扩充文本,然后利用在训练阶段提取出来的特征进行降维,用特征加权方法将特征用向量表示,最后利用训练阶段优化好的分类器对扩充信息的特征向量进行分类,得到的结果为该检索词的分类。通过反馈训练的算法调整分类器模型。分类器判断一个文本属于哪个分类
的同时,给出一个可信度,如果该值低于阈值,则判定它的可信度不高,会记录到反馈训练的数据文本集。通过大数据平台离线分析用户行为日志,获取点击量小于预定点击量阈值的Web应用对应的检索词,将这些词也记录到反馈训练的数据文本集当中。然后人工进行筛选、标注,将一部分高访问量的检索词直接放入高频词表中,下一次搜索的时候会先与高频词表中的词进行匹配,一部分作为学习反馈的最终数据。依次对比训练分类器中的向量与原分类器中向量的近似度,如果相似,就删除原分类器中的这条向量,用新向量替代,如果没有找到相似的向量,就添加到新的分类器向量中。其中利用训练阶段优化好的分类器对扩充信息的特征向量进行文本分类,进一步分为文本向量逆向词频建立和计算近似度矩阵。本专利技术结合分词特性与结合领域知识的语义权值,在所有的DataNode均部署分词工具包,在分词后获得文本的检索词以及该检索词在本文档的出现次数,以统计词频,扫描领域知识库,计算出该词的位置权值和语义跨度权值,再在第一个Map阶段调用语义近似度函数进行统计。然后,在Reduce阶段计算每个词的逆向词频,将这些信息输出为第二个MapReduce的输入。本文档来自技高网
...

【技术保护点】
一种基于数据挖掘的数据搜索方法,其特征在于,包括:预处理用户检索词,计算文本向量逆向词频和近似度矩阵,得到对用户输入的检索词的分类结果,根据分类结果进行检索。

【技术特征摘要】
1.一种基于数据挖掘的数据搜索方法,其特征在于,包括:预处理用户检索词,计算文本向量逆向词频和近似度矩阵,得到对用户输入的检索词的分类结果,根据分类结果进行检索。2.根据权利要求1所述的方法,其特征在于,所述计算文本向量逆向词频和近似度矩阵,进一步包括:结合分词特性与结合领域知识的语义权值,在所有的DataNode均部署分词工具包,在分词后获得文本的检索词以及该检索词在本文档的出现次数,以统计词频,扫描领域知识库,计算出该词的位置权值和语义跨度权值,再在第一个Map阶段调用语义近似度函数进行统计;然后在Reduce阶段计算每个词的逆向词频,将这些信息输出为第二个MapReduce的输入;在第二个Map阶段,计算语义近似度结果,如果近似度大于预设语义阈值,则返回语义权值,否则不加权,再组合所有的权值,得到最终语义权值;第二个Reduce阶段,对向量规格化处理;对于每一个文本...

【专利技术属性】
技术研发人员:赖真霖文君
申请(专利权)人:成都四象联创科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1