一种面向多维数据的分段式检索排序系统设计方法技术方案

技术编号:34729760 阅读:21 留言:0更新日期:2022-08-31 18:18
本发明专利技术公开了一种面向多维数据的分段式检索排序系统设计方法,借助搜索设计的ES检索引擎、Colbert

【技术实现步骤摘要】
一种面向多维数据的分段式检索排序系统设计方法


[0001]本专利技术属于数据检索
,具体涉及一种面向多维数据的分段式检索排序系统设计方法。

技术介绍

[0002]查询信息的场景在日常系统使用中尤为普遍,对于检索的准确率有着十分强烈的诉求。将搜索结果按照最符合用户期望的序列展示,符合搜索引擎和系统的核心价值。同样在各式各样的行业信息检索中,场景化的结果序列准确对于搜索引擎有着极高的要求,丰富化的个性搜索需要搜索系统和生态设计有相当高的完整度。优质的搜索效果不仅仅会从结果序列的准确性体现,也会在用户的体验感知上得到系统的评价。搜索系统作为最基础的实用功能,但也是最难达到最理想效果的功能,最理想的搜索设计需要做到最理解用户的真实想法。
[0003]当前市场上的搜索引擎和搜索设计,均为普适性的搜索,而且和数据自身的关联性不高。这类搜索最明显的特点就是只能应对标题和正文的日常化搜索,一旦面临高强业务,复杂的场景数据就显得非常不准确了。在实际应用和接入的时候,这部分往往达不到使用人群的要求,只能做和底层搜索逻辑一起的定制开发,不仅会影响原有的搜索逻辑,新加入的搜索逻辑效果也无法得到保证。

技术实现思路

[0004]本专利技术的目的在于提供一种面向多维数据的分段式检索排序系统设计方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种面向多维数据的分段式检索排序系统设计方法,包括如下步骤:步骤101)数据准备,将检索用到的数据提前加载到内存中;步骤102)数据改写,使用数据准备拓展模块改写内存中数据;步骤103)数据预处理,处理用户检索内容;步骤104)数据预处理改写,改写数据预处理后的对象;步骤105)构建query,根据数据预处理结果及页面选择的筛选条件,构建query;步骤106)ES检索,将ES检索引擎传入已构建完成的query,调用云搜索工具封装好的ES接口,召回query;步骤107)query召回处理,将ES返回的结果进行高亮和基础字段封装处理;步骤108)引入了语义匹配模型,colbert

search能力模型,将ES返回结果的得分与语义匹配模型得分按比例融合,得到综合得分,再根据综合得分排序;步骤109)个性化重排序,根据数据的用户行为属性,以及ES检索引擎和colbert

search能力模型融合后的综合得分,判断两篇文档的差异,若差异小于设定值,则判断为相近文档,通过比对数据的用户行为属性给文档加上业务相关比重后再次排序,得到最终检
索排序;步骤110)个性化重排序改写,对所述步骤109)个性化重排序进行改写。
[0006]优选的,所述步骤103)中处理用户检索内容包括使用自然语言中的分词能力进行分词、通过同义词对检索内容进行泛化处理。
[0007]优选的,所述数据预处理拓展模块用于定制化处理,改写步骤103)数据预处理结果。
[0008]优选的,所述步骤109)中数据的用户行为属性包括文档浏览量、点赞点踩量、评论量、分享量、打分量。
[0009]优选的,对所述数据的用户行为属性进行比重划分,即对文档浏览量、点赞点踩量、评论量、分享量、打分量进行业务比重的划分,根据比重计算文档得分再次进行排序。
[0010]优选的,所述根据比重计算文档得分的公式如下:其中Score(d)表示文档得分,Score(ES,BS)表示ES检索引擎和colbert

search能力模型融合后的综合得分,k是各文档的数据的用户行为属性占的比重。
[0011]优选的,通过配置SEO策略对最终检索排序进行调整,更改最终检索排序。
[0012]优选的,所述步骤步骤106)中ES检索使用bm25算法,在bm25的基础上加入sentence

bert模型,将不同的句子输入到sentence

bert模型中,获取到句子的语义表征向量,为了提高检索速度,把这些向量进行保存,每次检索query计算与这些向量的相似度,算法公式如下:其中,b表示bm25的算法得分,s表示sentence

bert模型算法得分,表示词权重,控制非线性词频率归一化,b控制文档长度对于分数的惩罚力度,dl代表文档长度,avgdl代表平均字段长度;是词项在文档中的频率;表示bm25算法得分与sentence

bert模型算法得分的融合比例;表示sentence

bert模型算法得分。
[0013]本专利技术的技术效果和优点:1、搜索效果好:借助检索分层设计,提高了数据质量和用户体验;2、可拓展性:在用户和场景数据运用到检索逻辑中时,都开放了端口,进行拓展设计,而且不会影响已有的检索设计,做到可延展的效果提升设计;3、场景化:用户数据和被检索的数据信息库都落到了场景化的结果排序中,符合真实用户的期望序列;4、重排设计:基础打分模式下,所有的额外规则,都是对得分序列的结果进行重排,基于这层规则,重排设计不会对不同段的规则进行互相干扰,可通过控制变量方法可进行深度调优。
附图说明
[0014]图1为本专利技术的流程图;图2为本专利技术的能力模型排序的流程图。
具体实施方式
[0015]下面结合附图对本专利技术的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本专利技术,但并不构成对本专利技术的限定。此外,下面所描述的本专利技术各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
[0016]本专利技术提供了如图1所示的一种面向多维数据的分段式检索排序系统设计方法,包括如下步骤:步骤101)数据准备,将检索用到的数据提前加载到内存中;步骤102)数据改写,使用数据准备拓展模块改写内存中数据;数据准备拓展模块用于定制化改写步骤101)中内存中的值,以提供数据准备改写服务;步骤103)数据预处理,处理用户检索内容,包括使用自然语言中的分词能力进行分词以及通过同义词对检索内容进行泛化处理;步骤104)数据预处理改写,通过数据预处理改写模块改写数据预处理后的对象;所述数据预处理改写模块用于定制化处理,改写步骤103)数据预处理结果;以提供数据预处理改写服务;步骤105)构建query,根据数据预处理结果及页面选择的筛选条件,构建query;步骤106)ES检索,将ES检索引擎传入已构建完成的query,调用cloud

search云搜索工具封装好的ES接口,召回query;ES检索融合了bm25算法与sentence

search模型算法,算法公式如下:其中b表示bm25的算法得分,s表示sentence

bert模型算法得分,表示词权重,控制非线性词频率归一化,b控制文档长度对于分数的惩罚力度,dl代表文档长度,avgdl代表平均字段长度;是词项在文档中的频率;表示bm25算法得分与sentence
...

【技术保护点】

【技术特征摘要】
1.一种面向多维数据的分段式检索排序系统设计方法,其特征在于,包括如下步骤:步骤101)数据准备,将检索用到的数据提前加载到内存中;步骤102)数据改写,使用数据准备拓展模块改写内存中数据;步骤103)数据预处理,处理用户检索内容;步骤104)数据预处理改写,改写数据预处理后的对象;步骤105)构建query,根据数据预处理结果及页面选择的筛选条件,构建query;步骤106)ES检索,将ES检索引擎传入已构建完成的query,调用云搜索工具封装好的ES接口,召回query;步骤107)query召回处理,将ES返回的结果进行高亮和基础字段封装处理;步骤108)引入了语义匹配模型,Colbert

search能力模型将ES返回结果的得分与语义匹配模型得分按比例融合,得到综合得分,再根据综合得分排序;步骤109)个性化重排序,根据用户的行为属性数据,以及ES检索引擎和Colbert

search能力模型融合后的综合得分,判断两篇文档的差异,若差异小于设定值,则判断为相近文档,通过比对数据的用户行为属性给文档加上业务相关比重后再次排序,得到最终检索排序;步骤110)个性化重排序改写,对所述步骤109)个性化重排序进行改写。2.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述步骤103)中处理用户检索内容包括使用自然语言中的分词能力进行分词、通过同义词对检索内容进行泛化处理。3.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述数据预处理拓展模块用于定制化处理,改写步骤103)数据预处理结果。4.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述步骤109)中数据的用户行为属性包括文档浏览量、点赞...

【专利技术属性】
技术研发人员:李志昌
申请(专利权)人:南京云问网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1