【技术实现步骤摘要】
分词位置索引构建方法及其装置、文档检索方法及其装置
[0001]本申请涉及数据检索领域,特别是涉及一种分词位置索引构建方法及其装置、文档检索方法及其装置、计算机设备和存储介质。
技术介绍
[0002]在大数据时代,随着互联网技术的迅速崛起与普及,人们在不同领域产生到的数据量之大,达到了前所未有的程度。同时,数据的产生、存储和处理方式发生了革命性的变化,人们的工作和生活基本上都可以用数字化表示,因此采用一种有效检索数据的方式愈发重要。
[0003]在各种全文检索系统中,elasticsearch(以下简称为ES,其是一个基于Lucene的搜索服务器,提供了一个分布式多用户能力的全文搜索引擎)具有方便易用快速高效的特点,因而得到了广泛应用。目前ES在对语句进行分词时,通常是按照一般的语意理解来进行分词。然而,在检索专利文献的场景中,专利文献的内容新颖,其中通常会包含一些最新的技术短语,使用目前的分词方式对专利文献进行分词,可能最终得到的分词词库中没有包含这些最新的技术短语,这使得用户在利用这些最新的技术短语检索专利文献时 ...
【技术保护点】
【技术特征摘要】
1.一种分词位置索引构建方法,其特征在于,所述方法包括:获取待构建索引的目标文档;对所述目标文档的特定内容进行分词处理,得到所述目标文档的分词集;根据所述目标文档的分词集为所述目标文档构建对应的分词位置索引;所述目标文档的分词位置索引用于记录所述目标文档的分词集中的每个分词的索引值,其中,每个分词的索引值等于本分词中的特定字在所述目标文档的特定内容中的排列顺序值。2.如权利要求1所述的方法,其特征在于,根据所述目标文档的分词集为所述目标文档构建对应的分词位置索引的步骤,包括:为所述目标文档的分词集中的每个分词分配对应的索引值,根据每个分词的索引值为所述目标文档构建对应的分词位置索引。3.如权利要求2所述的方法,其特征在于,所述目标文档的分词集包括多个字数为1的分词和多个字数超过1的分词;所述多个字数为1的分词为所述目标文档的特定内容中的每个字;所述为所述目标文档的分词集中的每个分词分配对应的索引值,包括:在为每个字数为1的分词分配对应的索引值时,将每个分词在所述目标文档的特定内容中的排列顺序值作为对应的索引值;在为每个字数超过1的分词分配对应的索引值时,将每个分词中的特定字在所述目标文档的特定内容中的排列顺序值作为对应的索引值。4.如权利要求1所述的方法,其特征在于,所述特定字是指首字或尾字。5.一种文档检索方法,其特征在于,所述方法包括:对获得的检索文本进行分词处理,得到分词集;确定所述分词集中每个分词的索引值,所述分词集中的每个分词的索引值等于本分词中的特定字在所述检索文本中的排列顺序值;根据所述每个分词的索引值确定所述分词集的位置关系,所述分词集的位置关系表示所述分词集中的特定分词和每个其他分词间的索引值差;根据所述分词集查询文档索引得到初始结果集,根据所述分词集、所述分词集的位置关系和所述初始结果集中每个文档的分词位置索引,从所述初始结果集中筛选出最终结果集。6.如权利要求5所述的方法,其特征在于,所述分词集包括n个字数为1的分词和m个字数超过1的分词;所述确定所述分词集中每个分词的索引值,包括:将每个字数为1的分词在所述检索文本中的排列顺序值作为对应的索引值;将每个字数超过1的分词的特定字在所述检索文本中的排列顺序值作为对应的索引值。7.如权利要求5或6所述的方法,其特征在于,所述根据所述分词集、所...
【专利技术属性】
技术研发人员:王峻岭,
申请(专利权)人:广州奥凯信息咨询有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。