文本数据定向搜索方法技术

技术编号：14233511 阅读：108 留言：0更新日期：2016-12-20 23:56

本发明专利技术提供了一种文本数据定向搜索方法，该方法包括：使用预先训练的分类器对用户输入的检索词的扩充文本进行分类，将分类结果发送给应用系统，通过反馈训练来调整分类器，识别检索词的属性和用户意图并将检索结果呈现到搜索引擎中。本发明专利技术提出了一种文本数据定向搜索方法，利用搜索词的特征表示理解用户意图，并通过改进的索引机制提高了搜索引擎的效率，增强了用户体验。

Text data directional search method

The present invention provides a search method for text data oriented, the method comprises: using a pre trained classifier to extend the text search terms are classified, the classification result can be sent to the application system, through the feedback to adjust the training classifier, word recognition and retrieval of attribute and user intention and the search results were presented to the search engine in. The invention provides a method for searching the text data, which uses the characteristic expression of the search word to understand the user's intention, improves the efficiency of the search engine through the improved index mechanism, and enhances the user experience.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据搜索，特别涉及一种文本数据定向搜索方法。
技术介绍
随着互联网的发展，搜索引擎要处理的数据量越来越大，对搜索引擎的性能要求越来越高。高效的针对用户的搜索词，可以挖掘出一些潜在的用户意图，其中根据搜索词的分类可以得知用户想搜索到哪个领域的结果，针对用户意图及这个领域的特点可以给用户推荐满足用户需求的应用，来优化搜索结果。为了提高信息检索效率，信息检索系统一般都采用基于云的并行计算平台和索引技术。索引的结构设计、存储方式、检索操作和动态更新算法对信息检索的效率有很大的影响。然而，现有技术的搜索引擎对搜索词的处理不够完善，没有特别对用户意图进行有效预测。并且在索引处理上，索引的添加需要将新增的记录与原有的索引的相同项合并。在HDFS中这项操作需要重新创建块。每个DataNode上的副本信息也需要更新。而且在索引中的删除内容只能删除整个块，并产生大量的I/O通信，浪费大量的时间和资源。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了一种文本数据定向搜索方法，包括：使用预先训练的分类器对用户输入的检索词的扩充文本进行分类，将分类结果发送给应用系统，通过反馈训练来调整分类器，识别检索词的属性和用户意图并将检索结果呈现到搜索引擎中。优选地，所述应用系统包括：Web服务器，调用各个服务，将数据进行聚集，最终与页面样式进行整合；缓存服务器，将更新频率低的信息存储在缓存服务器中；属性识别服务，识别出子类别及用户意图，选择适合于用户需求的应用模板；分领域资源库，根据不同的领域，建立自己的资源库；数据库：采用主库和从库的结构，主库负责写入，从库负责...
文本数据定向搜索方法

【技术保护点】
一种文本数据定向搜索方法，其特征在于，包括：使用预先训练的分类器对用户输入的检索词的扩充文本进行分类，将分类结果发送给应用系统，通过反馈训练来调整分类器，识别检索词的属性和用户意图并将检索结果呈现到搜索引擎中。

【技术特征摘要】
1.一种文本数据定向搜索方法，其特征在于，包括：使用预先训练的分类器对用户输入的检索词的扩充文本进行分类，将分类结果发送给应用系统，通过反馈训练来调整分类器，识别检索词的属性和用户意图并将检索结果呈现到搜索引擎中。2.根据权利要求1所述的方法，其特征在于，所述应用系统包括：Web服务器，调用各个服务，将数据进行聚集，最终与页面样式进行整合；缓存服务器，将更新频率低的信息存储在缓存服务器中；属性识别服务，识别出子类别及用户意图，选择适合于用户需求的应用模板；分领域资源库，根据不同的领域，建立自己的资源库；数据库：采用主库和从库的结构，主库负责写入，从库负责读取，实现读写分离，主库之间需要同步，从库也要与主库的数据保持同步；检索服务器：当检索是带有一定条件，或有排序的需求时，使用索引根据检索条件得到结果。3.根据权利要求2所述的方法，其特征在于，所述对用户输入的检索词的扩充文本进行分类，进一步包括，将检索词扩充为搜索引擎结果中的前k条摘要信息，k为扩充后的词条数，将扩充文本的分类结果作为原搜索文本的分类结果；在检索词预处理阶段，用向量的形式存储词条，丢弃广告、图片、Web应用结...

【专利技术属性】
技术研发人员：赖真霖，文君，
申请(专利权)人：成都四象联创科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人