文本数据定向搜索方法技术

技术编号:14233511 阅读:108 留言:0更新日期:2016-12-20 23:56
本发明专利技术提供了一种文本数据定向搜索方法,该方法包括:使用预先训练的分类器对用户输入的检索词的扩充文本进行分类,将分类结果发送给应用系统,通过反馈训练来调整分类器,识别检索词的属性和用户意图并将检索结果呈现到搜索引擎中。本发明专利技术提出了一种文本数据定向搜索方法,利用搜索词的特征表示理解用户意图,并通过改进的索引机制提高了搜索引擎的效率,增强了用户体验。

Text data directional search method

The present invention provides a search method for text data oriented, the method comprises: using a pre trained classifier to extend the text search terms are classified, the classification result can be sent to the application system, through the feedback to adjust the training classifier, word recognition and retrieval of attribute and user intention and the search results were presented to the search engine in. The invention provides a method for searching the text data, which uses the characteristic expression of the search word to understand the user's intention, improves the efficiency of the search engine through the improved index mechanism, and enhances the user experience.

【技术实现步骤摘要】

本专利技术涉及数据搜索,特别涉及一种文本数据定向搜索方法
技术介绍
随着互联网的发展,搜索引擎要处理的数据量越来越大,对搜索引擎的性能要求越来越高。高效的针对用户的搜索词,可以挖掘出一些潜在的用户意图,其中根据搜索词的分类可以得知用户想搜索到哪个领域的结果,针对用户意图及这个领域的特点可以给用户推荐满足用户需求的应用,来优化搜索结果。为了提高信息检索效率,信息检索系统一般都采用基于云的并行计算平台和索引技术。索引的结构设计、存储方式、检索操作和动态更新算法对信息检索的效率有很大的影响。然而,现有技术的搜索引擎对搜索词的处理不够完善,没有特别对用户意图进行有效预测。并且在索引处理上,索引的添加需要将新增的记录与原有的索引的相同项合并。在HDFS中这项操作需要重新创建块。每个DataNode上的副本信息也需要更新。而且在索引中的删除内容只能删除整个块,并产生大量的I/O通信,浪费大量的时间和资源。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种文本数据定向搜索方法,包括:使用预先训练的分类器对用户输入的检索词的扩充文本进行分类,将分类结果发送给应用系统,通过反馈训练来调整分类器,识别检索词的属性和用户意图并将检索结果呈现到搜索引擎中。优选地,所述应用系统包括:Web服务器,调用各个服务,将数据进行聚集,最终与页面样式进行整合;缓存服务器,将更新频率低的信息存储在缓存服务器中;属性识别服务,识别出子类别及用户意图,选择适合于用户需求的应用模板;分领域资源库,根据不同的领域,建立自己的资源库;数据库:采用主库和从库的结构,主库负责写入,从库负责读取,实现读写分离,主库之间需要同步,从库也要与主库的数据保持同步;检索服务器:当检索是带有一定条件,或有排序的需求时,使用索引根据检索条件得到结果。优选地,所述对用户输入的检索词的扩充文本进行分类,进一步包括,将检索词扩充为搜索引擎结果中的前k条摘要信息,k为扩充后的词条数,将扩充文本的分类结果作为原搜索文本的分类结果;在检索词预处理阶段,用向量的形式存储词条,丢弃广告、图片、Web应用结果,过滤网页标签,提取前k条摘要为文本的扩充结果,然后对扩充文本进行预处理,预处理包括分词、丢弃停用词,每个摘要作为一个文档,包含特征项集合;在训练阶段,根据训练集中的文本的扩充信息,进行特征选择、特征加权、建立分类器,具体包括将训练集中的检索词扩充为在检索词预处理阶段中获取到的该检索词的扩充文本;利用特征选择方法选择代表性特征项,将特征项进行降维,使用逆向词频方法进行特征加权,最后使用文本分类的方法建立分类器;得到的结果为该检索词的分类;其中分类器通过反馈训练来调整,分类器判断一个文本属于哪个分类的同时,给出一个可信度,如果该值低于阈值,则记录到反馈训练的数据文本集;通过分析用户行为日志,获取点击量小于预定点击量阈值的Web应用对应的检索词,将这些词也记录到反馈训练的数据文本集中,然后人工进行筛选、标注,将一部分高访问量的检索词直接放入高频词表中,下一次搜索的时候先与高频词表中的词进行匹配,一部分作为学习反馈的最终数据;依次对比训练分类器中的向量与原分类器中向量的近似度,如果相似,就删除原分类器中的这条向量,用新向量替代,如果没有找到相似的向量,就添加到新的分类器向量中。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种文本数据定向搜索方法,利用搜索词的特征表示理解用户意图,并通过改进的索引机制提高了搜索引擎的效率,增强了用户体验。附图说明图1是根据本专利技术实施例的文本数据定向搜索方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种文本数据定向搜索方法。图1是根据本专利技术实施例的文本数据定向搜索方法流程图。本专利技术根据用户输入的检索词,使用预先训练好的分类器对检索词的扩充文本进行分类,将分类结果发送给应用系统,识别检索词的属性和用户意图,获得模板和数据,再以Web应用的形式呈现到搜索引擎中。所述应用系统包括:代理服务器,保护内部系统端口不对外暴露,并且支持高并发、负载均衡,也有助于提高访问速度。Web服务器:采用MVC的架构,调用各个服务,将数据进行聚集,最终与页面样式进行整合。缓存服务器:将一些更新频率低的信息存储在缓存服务器中,而不需要反复检索数据库,缓解数据库的压力。属性识别服务:识别出子类别及用户意图,来选择适合于用户需求的应用模板。分领域资源库:根据不同的领域,建立自己的资源库。数据库:采用主库和从库的结构,主库负责写入,从库负责读取,实现读写分离。另外主库之间需要同步,从库也要与主库的数据保持同步。检索服务器:当检索是带有一定条件,或有排序的需求时,使用索引的技术来快速根据检索条件得到结果。针对检索词的分类,本专利技术利用搜索引擎对检索词进行文本扩充,将检索词扩充为搜索引擎结果中的前k条摘要信息,k为扩充后的词条数,将扩充文本的分类结果作为原搜索文本的分类结果。在检索词预处理阶段,是将检索词进行扩充,用向量的形式存储,丢弃广告、图片、Web应用等信息量较少的结果,过滤网页标签,提取前k条摘要为文本的扩充结果,然后对扩充文本进行预处理,预处理分为分词、丢弃停用词。每个摘要,即一个文档,里面包含的是特征项集合,将它用向量来表示。然后在训练阶段,根据训练集中的文本的扩充信息,进行特征选择、特征加权、建立分类器。具体包括将训练集中的检索词扩充为在检索词预处理阶段中获取到的该检索词的扩充文本。利用特征选择方法选择代表性特征项,将大数量级的特征项降维,使用本专利技术改进的适用于文本分类的改进逆向词频方法进行特征加权,最后使用文本分类的方法建立分类器,供测试阶段使用。在分类阶段,将待分类的检索词进行分类。具体包括先将待分类检索词扩充为扩充文本,然后利用在训练阶段提取出来的特征进行降维,用特征加权方法将特征用向量表示,最后利用训练阶段优化好的分类器对扩充信息的特征向量进行分类,得到的结果为该检索词的分类。通过反馈训练的算法调整分类器模型。分类器判断一个文本属于哪个分类的同时,给出一个可信度,如果该值低于阈值,则判定它的可信度不高,会记录到反馈训练的数据文本集。通过大数据平台离线分析用户行为日志,获取点击量小于预定点击量阈值的Web应用对应的检索词,将这些词也记录到反馈训练的数据文本集当中。然后人工进行筛选、标注,将一部分高访问量的检索词直接放入高频词表中,下一次搜索的时候会先与高频词表中的词进行匹配,一部分作为学习反馈的最终数据。依次对比训练分类器中的向量与原分类器中向量的近似度,如果相似,就删除原分类器中的这条向量,用新向量替代,如果没有找到相似的向量,就添加到新的分类器向量中。其中利用训练阶段优化好的分类器对扩充信息的特征向量进行文本分类,进一步分为文本向量逆向词频建立和计算近似度矩阵。本专利技术结合分词特性与结合领域知识的语本文档来自技高网...
文本数据定向搜索方法

【技术保护点】
一种文本数据定向搜索方法,其特征在于,包括:使用预先训练的分类器对用户输入的检索词的扩充文本进行分类,将分类结果发送给应用系统,通过反馈训练来调整分类器,识别检索词的属性和用户意图并将检索结果呈现到搜索引擎中。

【技术特征摘要】
1.一种文本数据定向搜索方法,其特征在于,包括:使用预先训练的分类器对用户输入的检索词的扩充文本进行分类,将分类结果发送给应用系统,通过反馈训练来调整分类器,识别检索词的属性和用户意图并将检索结果呈现到搜索引擎中。2.根据权利要求1所述的方法,其特征在于,所述应用系统包括:Web服务器,调用各个服务,将数据进行聚集,最终与页面样式进行整合;缓存服务器,将更新频率低的信息存储在缓存服务器中;属性识别服务,识别出子类别及用户意图,选择适合于用户需求的应用模板;分领域资源库,根据不同的领域,建立自己的资源库;数据库:采用主库和从库的结构,主库负责写入,从库负责读取,实现读写分离,主库之间需要同步,从库也要与主库的数据保持同步;检索服务器:当检索是带有一定条件,或有排序的需求时,使用索引根据检索条件得到结果。3.根据权利要求2所述的方法,其特征在于,所述对用户输入的检索词的扩充文本进行分类,进一步包括,将检索词扩充为搜索引擎结果中的前k条摘要信息,k为扩充后的词条数,将扩充文本的分类结果作为原搜索文本的分类结果;在检索词预处理阶段,用向量的形式存储词条,丢弃广告、图片、Web应用结...

【专利技术属性】
技术研发人员:赖真霖文君
申请(专利权)人:成都四象联创科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1