一种中文词条检索方法技术

技术编号:9765971 阅读:126 留言:0更新日期:2014-03-15 11:57
本发明专利技术公开了一种中文词条检索方法,包括以下步骤:1)用户通过http|get/post接口输入中文词条,分词系统介入,对用户检索的关键词进行分词;2)在索引文件中查询,查询出的关键词结果在前台高亮显示,生成内容摘要,返回数据格式;3)用户通过http|get/post接口输入的中文词条进行增删改时,上述操作进入队列控制器等待;4)数据源进入数据库分布控制层,将数据更新到数据库中;5)调用sphinx索引服务层,进行索引的建立。与现有技术相比,本发明专利技术简化优化了中文词条检索方法,产生新的架构方案,新方案能快速高效的对大数据进行分词,建立高效索引。

【技术实现步骤摘要】
—种中文词条检索方法
本专利技术涉及计算机网络搜索引擎检索领域,具体涉及。
技术介绍
随着互联网数据量越来越大,用户从大数据中检索相关数据的时间越来越长。月艮务器性能随之产生浪费,如何解决大数据下快速检索的功能成为了研究的课题。现在有技术上有sphinx全文检索引擎+sews中文分词系统的架构方案,sphinx全文检索引擎+SCWS中文分词系统他的缺点部署稍复杂,使用稍复杂。
技术实现思路
本专利技术克服了现有技术的不足,提供一种简化的中文词条检索方法。为解决上述技术问题,本专利技术采用的技术方案为: ,包括以下步骤: O用户通过http I get/post接口输入中文词条,分词系统介入,对用户检索的关键词进行分词; 2)在索引文件中查询,查询出的关键词结果高亮显示,生成内容摘要,返回数据格式; 3)用户通过httpI get/post接口输入的中文词条进行增删改时,上述操作进入队列控制器等待; 4)根据先入先出原则,数据源进入数据库分布控制层(控制层,更具全局hashid分布,双机备份),将数据更新到数据库中; 5)调用sphinx索引服务层,进行索引的建立;此时的索引是临时索引不影响主索引的使用,当临时索引达到一定的级别,将和主索引进行归档合并,一定的级别为配置文件通过设置临时索引的限制条数实现。所述步骤2 )数据格式包括j son和xml。较优地,步骤I分词系统包括: 分词模块:用于对中文文本按词语语义进行分词; 匹配模块:用于匹配分词模块进行分词后的词条与知识库中的数据; 知识库:存储中文词条信息库。较优地,队列控制器包括:限制计数器、可用计数器、指针计数器、要求控制器与存取控制器,指针计数器指示当前词条索引位置。与现有技术相比,本专利技术的有益效果有:本专利技术简化优化了中文词条检索方法,产生新的架构方案,新方案能快速高效的对大数据进行分词,建立高效索引。【附图说明】图1为本专利技术的方法流程图。【具体实施方式】下面结合附图对本专利技术作更进一步的说明。,包括以下步骤: O用户通过http I get/post接口输入中文词条,分词系统介入,对用户检索的关键词进行分词; 2)在索引文件中查询,查询出的关键词结果高亮显示,生成内容摘要,返回数据格式; 3)用户通过httpI get/post接口输入的中文词条进行增删改时,上述操作进入队列控制器等待; 4)根据先入先出原则,数据源进入数据库分布控制层(控制层,更具全局hashid分布,双机备份),将数据更新到数据库中; 5)调用sphinx索引服务层,进行索引的建立;此时的索引是临时索引不影响主索引的使用,当临时索引达到一定的级别,将和主索引进行归档合并,一定的级别为配置文件通过设置临时索引的限制条数实现。所述步骤2 )数据格式包括j son和xml。较优地,步骤I分词系统包括: 分词模块:用于对中文文本按词语语义进行分词; 匹配模块:用于匹配分词模块进行分词后的词条与知识库中的数据; 知识库:存储中文词条信息库; 较优地,队列控制器包括:限制计数器、可用计数器、指针计数器、要求控制器与存取控制器,限制计数器、可用计数器、指针计数器、要求控制器与存取控制器相连。以上所述仅是本专利技术的优选实施方式,应当指出:对于本
的普通技术人员来说,在不脱离本专利技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本专利技术的保护范围。本文档来自技高网
...

【技术保护点】
一种中文词条检索方法,其特征在于:包括以下步骤:1)用户通过http|get/post接口输入中文词条,分词系统介入,对用户检索的关键词进行分词;2)在索引文件中查询,查询出的关键词结果在前台高亮显示,生成内容摘要,返回数据格式;3)用户通过http|get/post接口输入的中文词条进行增删改时,上述操作进入队列控制器等待;4)根据先入先出原则,数据源进入数据库分布控制层,将数据更新到数据库中;5)调用sphinx索引服务层,进行索引的建立。

【技术特征摘要】
1.一种中文词条检索方法,其特征在于:包括以下步骤: 1)用户通过httpI get/post接口输入中文词条,分词系统介入,对用户检索的关键词进行分词; 2)在索引文件中查询,查询出的关键词结果在前台高亮显示,生成内容摘要,返回数据格式; 3)用户通过httpI get/post接口输入的中文词条进行增删改时,上述操作进入队列控制器等待; 4)根据先入先出原则,数据源进入数据库分布控制层,将数据更新到数据库中; 5)调用sphinx索引服务层,进行索引的建立。2.根据权利要求1所述的一种中文词条检索方法,其特征在于:所述步骤2)数据格式包括json和xml。3.根据权利要求...

【专利技术属性】
技术研发人员:秦谦
申请(专利权)人:江苏名通信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1