一种基于切词的多层次检索方法技术

技术编号:17467572 阅读:79 留言:0更新日期:2018-03-15 05:04
本发明专利技术提供了一种基于切词的多层次检索方法,包括:获得检索文本的检索基础分词;通过将所述检索基础分词进行组合形成所述检索文本的检索组合分词;以及使用所述检索文本的检索基础分词和检索组合分词,搜索语料库中的文本数据以获得所述检索文本的检索结果。

【技术实现步骤摘要】
一种基于切词的多层次检索方法
本专利技术涉及数据检索领域,具体地,涉及基于切词的多层次数据检索方法。
技术介绍
随着互联网行业的快速发展,互联网上的信息数据规模越来越大,越来越多的用户从互联网上检索自己需要的信息。为了使用户能够从海量的信息数据中检索到有价值的信息,通常需要对自然语言进行处理,进而将与检索词相匹配的结果按一定的顺序排序。现有的搜索引擎都有各自的文本检索方案,以为用户提供其所检索的信息。现在常用的文本检索方法,在对文本进行切词后,直接根据切词后的分词列表对索引进行召回并进行相关性计算打分,存在着以下的不足之处:1)没有考虑切词之后的分词顺序,导致结果中出现分词乱序的数据;2)一些专有名词没有被切词识别,导致含有专有名词的数据没有通过排序排到前面。
技术实现思路
为了解决现有技术中的至少一些问题,本专利技术提出了一种基于切词的多层次检索方法。根据本专利技术的一方面,提出了一种基于切词的多层次检索方法,包括:获得检索文本的检索基础分词;通过将所述检索基础分词进行组合形成所述检索文本的检索组合分词;以及使用所述检索文本的检索基础分词和检索组合分词,搜索语料库中的文本数据以获得所述本文档来自技高网...
一种基于切词的多层次检索方法

【技术保护点】
一种基于切词的多层次检索方法,包括:获得检索文本的检索基础分词;通过将所述检索基础分词进行组合形成所述检索文本的检索组合分词;以及使用所述检索文本的检索基础分词和检索组合分词,搜索语料库中的文本数据以获得所述检索文本的检索结果。

【技术特征摘要】
1.一种基于切词的多层次检索方法,包括:获得检索文本的检索基础分词;通过将所述检索基础分词进行组合形成所述检索文本的检索组合分词;以及使用所述检索文本的检索基础分词和检索组合分词,搜索语料库中的文本数据以获得所述检索文本的检索结果。2.根据权利要求1所述的方法,其中,获得检索文本的检索基础分词的步骤包括:对所述检索文本进行切词处理,生成所述检索文本的检索基础分词。3.根据权利要求2所述的方法,其中,所述检索组合分词包括第一检索组合分词和第二检索组合分词,通过将所述检索基础分词进行组合形成所述检索文本的检索组合分词的步骤包括:对所述检索基础分词进行合并,生成所述第一检索组合分词;以及对所述第一检索组合分词进行合并,生成所述第二检索组合分词。4.根据权利要求1所述的方法,还包括:在进行检索之前,对所述语料库中的文本数据进行切词处理,获得所述文本数据的文本基础分词;以及通过将所述文本基础分词进行组合形成所述文本数据的文本组合分词。5.根据权利要求4所述的方法,所述文本组合分词包括第一文本组合分词和第二文本组合分词,通过将所述文本基础分词进行组合形成所述文本数据的文本组合分词的步骤包括:将所述文本基础分词之间距离是1或2的文本基础分词进行合并,生成所述第一文本组合分词;以及将所述第一文本组合分词之间距离是1或2的第一文本组合分词进行合并,生成所述第二文本组合分词。6.根据权利要求1至5中任一项所述的方法,使用所述检索文本的检索基础分词和检索组合分词,搜索语料库中的文本数据以获得所述检索文本的...

【专利技术属性】
技术研发人员:胡伟东
申请(专利权)人:北京小度互娱科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1