System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于分布式搜索的自定义分词优化方法及系统技术方案_技高网

一种基于分布式搜索的自定义分词优化方法及系统技术方案

技术编号:40116817 阅读:6 留言:0更新日期:2024-01-23 20:02
本发明专利技术公开了一种基于分布式搜索的自定义分词优化方法及系统,方法步骤为:S1:收集用户查询历史记录;S2:分析用户查询历史记录;S3:建立自定义分词词库;S4:优化自定义分词器参数。系统包括用户查询历史收集模块、用户查询历史分析模块、分词库创建模块、分词器参数优化模块。通过一种基于分布式搜索的自定义分词优化方法及系统,建立了自定义分词词库,更好地匹配用户的实际需求和基础数据;针对多词搜索条件,对自定义分词器进行优化,可以提高搜索准确性,降低误差率;结果显示优化算法可以根据用户历史记录自动调整排序和过滤规则,提高搜索结果的精确度和用户体验。

【技术实现步骤摘要】

本专利技术涉及应用性能分析领域,尤其涉及一种基于分布式搜索的自定义分词优化方法及系统


技术介绍

1、elasticsearch是一种基于lucene的分布式搜索引擎。提供了分布式全文搜索、实时分析和数据存储的功能。elasticsearch查询是应用性能分析系统中一个非常关键的应用场景。由于elasticsearch的全文搜索功能和分布式架构,它成为了应用性能分析系统中处理日志和统计数据的重要组成部分。

2、elasticsearch查询语句需要输入查询条件,然后返回符合条件的文档。它有一个默认的分词器,它可以将一段文本分成单个词语。如果搜索条件是一个单词,那么默认的分词器就可以工作。但是如果搜索条件是多个词或一个短语,则需要使用自定义分词器进行查询。

3、自定义分词器是一种将文本按照指定规则进行分词的工具。使用正确的自定义分词器可以使查询更加准确,提高搜索结果的精确度。但是在实际使用中,许多用户并不完全理解自定义分词器的工作原理和使用方法,以及如何对自定义分词器进行调试和优化。


技术实现思路

1、本专利技术的目的在于,针对自定义分词器的精确度并不高的问题,提出一种基于分布式搜索的自定义分词优化方法及系统,可以自动调整查询参数,改进查询准确性,提高用户体验。

2、一种基于分布式搜索的自定义分词优化方法,步骤为:

3、s1:收集用户查询历史记录;

4、s2:分析用户查询历史记录;

5、s3:建立自定义分词词库;

6、s4:优化自定义分词器参数。

7、进一步的,一种基于分布式搜索的自定义分词优化方法,所述步骤s1包括以下具体步骤:

8、s11:用户使用elasticsearch搜索时,收集用户输入的搜索关键词;

9、s12:将搜索关键词和用户id相关联,放入用户查询历史收集模块。

10、进一步的,一种基于分布式搜索的自定义分词优化方法,所述步骤s2包括以下子步骤:

11、s21:根据收集的用户查询历史记录,对搜索关键词进行检索;

12、s22:对检索的关键词进行分类:

13、若关键词搜索次数大于100,设置为热点搜索词;

14、若关键词搜索次数大于50小于100,设置为常用搜索词;

15、若关键词搜索次数小于50大于10,设置为不常见搜索词;

16、若关键词搜索次数小于10,设置为罕见搜索词。

17、进一步的,一种基于分布式搜索的自定义分词优化方法,所述步骤s3包括以下具体步骤:

18、s31:将热点搜索词进行标记;

19、s32:创建自定义分词词库,并将标记的热点搜索词添加到自定义分词词库。

20、进一步的,一种基于分布式搜索的自定义分词优化方法,所述步骤s4为针对多词搜索条件,对自定义分词器参数进行调整,包括以下子步骤:

21、s41:分词器中参数的设定调整;

22、所述参数的设定包括参数的精确度、是否去掉停用词;

23、s42:设定过滤器和规则,用于优化和调整词语的匹配和计算;

24、s43:设定搜索排序的规则,根据不同的关键词进行不同的加权计算。

25、一种基于分布式搜索的自定义分词优化系统,包括用户查询历史收集模块、用户查询历史分析模块、分词库创建模块、分词器参数优化模块、授权规则模块;

26、所述用户查询历史收集模块功能为收集用户输入的搜索关键词;

27、所述用户查询历史分析模块功能为对用户查询历史收集模块中的关键词进行分类;

28、所述分词库创建模块功能为添加用户查询历史分析模块分类的热点搜索词;

29、所述授权规则模块功能为针对多词搜索条件,自定义分词器参数进行调整。

30、本专利技术的有益效果:

31、1. 建立自定义分词词库,可以更好地匹配用户的实际需求和基础数据;

32、2. 针对多词搜索条件,对自定义分词器进行优化,可以提高搜索准确性,降低误差率;

33、3. 结果显示优化算法可以根据用户历史记录自动调整排序和过滤规则,提高搜索结果的精确度和用户体验。

本文档来自技高网...

【技术保护点】

1.一种基于分布式搜索的自定义分词优化方法,其特征在于,步骤为:

2.根据权利要求1所述的一种基于分布式搜索的自定义分词优化方法,其特征在于,所述步骤S1包括以下具体步骤:

3.根据权利要求1所述的一种基于分布式搜索的自定义分词优化方法,其特征在于,所述步骤S2包括以下子步骤:

4.根据权利要求1所述的一种基于分布式搜索的自定义分词优化方法,其特征在于,所述步骤S3包括以下具体步骤:

5.根据权利要求1所述的一种基于分布式搜索的自定义分词优化方法,其特征在于,所述步骤S4为针对多词搜索条件,对自定义分词器参数进行调整,包括以下子步骤:

6.一种基于分布式搜索的自定义分词优化系统,其特征在于,包括用户查询历史收集模块、用户查询历史分析模块、分词库创建模块、分词器参数优化模块、授权规则模块;

【技术特征摘要】

1.一种基于分布式搜索的自定义分词优化方法,其特征在于,步骤为:

2.根据权利要求1所述的一种基于分布式搜索的自定义分词优化方法,其特征在于,所述步骤s1包括以下具体步骤:

3.根据权利要求1所述的一种基于分布式搜索的自定义分词优化方法,其特征在于,所述步骤s2包括以下子步骤:

4.根据权利要求1所述的一种基于分布式搜索的自定义分词优化方法...

【专利技术属性】
技术研发人员:赵振峰田吉李佳刘彪娄江南李成杨爽牛建平孙大臣管春元谢斌焦质晔滕训超孙增强
申请(专利权)人:启明信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1