【技术实现步骤摘要】
—种中文词条检索方法
本专利技术涉及计算机网络搜索引擎检索领域,具体涉及。
技术介绍
随着互联网数据量越来越大,用户从大数据中检索相关数据的时间越来越长。月艮务器性能随之产生浪费,如何解决大数据下快速检索的功能成为了研究的课题。现在有技术上有sphinx全文检索引擎+sews中文分词系统的架构方案,sphinx全文检索引擎+SCWS中文分词系统他的缺点部署稍复杂,使用稍复杂。
技术实现思路
本专利技术克服了现有技术的不足,提供一种简化的中文词条检索方法。为解决上述技术问题,本专利技术采用的技术方案为: ,包括以下步骤: O用户通过http I get/post接口输入中文词条,分词系统介入,对用户检索的关键词进行分词; 2)在索引文件中查询,查询出的关键词结果高亮显示,生成内容摘要,返回数据格式; 3)用户通过httpI get/post接口输入的中文词条进行增删改时,上述操作进入队列控制器等待; 4)根据先入先出原则,数据源进入数据库分布控制层(控制层,更具全局hashid分布,双机备份),将数据更新到数据库中; 5)调用sphinx索引服务层,进行索引的建立;此时的索引是临时索引不影响主索引的使用,当临时索引达到一定的级别,将和主索引进行归档合并,一定的级别为配置文件通过设置临时索引的限制条数实现。所述步骤2 )数据格式包括j son和xml。较优地,步骤I分词系统包括: 分词模块:用于对中文文本按词语语义进行分词; 匹配模块:用于匹配分词模块进行分词后的词条与知识库中的数据; 知识库:存储中文词条信息库。较优地,队列控制器包 ...
【技术保护点】
一种中文词条检索方法,其特征在于:包括以下步骤:1)用户通过http|get/post接口输入中文词条,分词系统介入,对用户检索的关键词进行分词;2)在索引文件中查询,查询出的关键词结果在前台高亮显示,生成内容摘要,返回数据格式;3)用户通过http|get/post接口输入的中文词条进行增删改时,上述操作进入队列控制器等待;4)根据先入先出原则,数据源进入数据库分布控制层,将数据更新到数据库中;5)调用sphinx索引服务层,进行索引的建立。
【技术特征摘要】
1.一种中文词条检索方法,其特征在于:包括以下步骤: 1)用户通过httpI get/post接口输入中文词条,分词系统介入,对用户检索的关键词进行分词; 2)在索引文件中查询,查询出的关键词结果在前台高亮显示,生成内容摘要,返回数据格式; 3)用户通过httpI get/post接口输入的中文词条进行增删改时,上述操作进入队列控制器等待; 4)根据先入先出原则,数据源进入数据库分布控制层,将数据更新到数据库中; 5)调用sphinx索引服务层,进行索引的建立。2.根据权利要求1所述的一种中文词条检索方法,其特征在于:所述步骤2)数据格式包括json和xml。3.根据权利要求...
【专利技术属性】
技术研发人员:秦谦,
申请(专利权)人:江苏名通信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。