一种对排序结果进行验证的方法和系统技术方案

技术编号:4143293 阅读:237 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出一种对排序结果进行验证的方法和系统,根据要搜索的关键词获取搜索结果,并对搜索结果标注位置序号,得到用位置序号组成的搜索结果序列;计算信息相关度、信息丰富度以及排序分数;按分数大小顺序排列排序分数,并将搜索结果中的位置序号对应标注到各排序后分数,得到用位置序号组成的排序结果序列;计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度;将相似度与配置的阈值进行比较,记录比较结果,并根据比较结果判断排序结果是否通过验证。本发明专利技术可以对多个搜索算法的效果进行比较,并提高检验排序结果的效率。

【技术实现步骤摘要】

本专利技术属于电信业务中的信息搜索应用
,尤其涉及一种对 排序结果进行验证的方法和系统。
技术介绍
在信息大爆炸的时代,用户需要更准确定位所需分类信息,由此衍 生出垂直搜索技术以满足客户日益增长变化的需求。为实现此目的,搜 索引擎需要不断根据客户需求完善其自身的排序规则,使之做到准确、 合理、高效。大多数搜索产品在面临新增排序需求或调整排序结果时,并不能较 完美的满足用户需求,无法较好的按照客户业务需求进行排序,搜索结 果不尽如人意。急需在排序算法调整后对搜索结果的准确性做完备的验 证,但目前业内尚无较好的方法对搜索结果的排序进行衡量,主要存在如下问题1、 大多情况下,搜索结果的排序效果需要依靠人工的方式进行验 证,再对比业务需求修改排序参数来优化排序效果,效率低。2、 对排序效果的判断存在个人主观性,无法完全客观反映验证实 际情况。3、 对排序效果的衡量没有可量化的标准,无法对各类排序算法或 算法不同参数组合的排序结果进行自动对比。
技术实现思路
本专利技术提出 一种对排序结果进行验证的方法和系统,可以对多个搜 索算法的效果进行比较,并提高检验排序结果的效率。根据本专利技术的一个方面,提出一种对排序结果进行验证的方法,包括以下步骤搜索引擎根据要搜索的关键词获取搜索结果,并对搜索结 果标注位置序号,得到用位置序号组成的搜索结果序列;将各搜索结果 划分成具有权重系数的多个信息文本,根据关键词与信息文本的匹配次 数以及信息文本的权重系数计算信息相关度r ,其中,p表示关键词在字段中的匹配次数,w表示权重系数;根据对信息文本设定的业务M和权重系数计算信息丰富度C, c二Fl l + F2、2 + i^w3 +…+ f^而,其中,W表示权重系 数,U气—,>F *W ;根据信息相关度和信息丰富度计算排序分数按分数大小顺序排列排序分数,并将搜索引擎搜索结 果中的位置序号对应标注到各排序后分数,得到用位置序号组成的排序结果序列;计算用位置序号組成的排序结果序列与用位置序号组成的搜 索结果序列的相似度;将相似度与配置的阈值进行比较,并记录比较结 果,在比较结果中包括相似度大于阈值的次数以及相似度小于阈值的次 数;当比较结果中相似度大于阁值的次数大于设定次数,或者比较结果 中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验 证,否则通过验i正。进一步,计算用位置序号組成的排序结果序列与用位置序号组成的 搜索结果序列的相似度的操作,包括以下步骤计算排序结果序列中位 置序号与搜索结果序列中相应位置的位置序号的差值的绝对值;将各计 算结果进行加和运算得到相似度。进一步,计算差值的绝对值的操作,还包括对各差值的绝对值配以 权重系数的步骤。进一步,计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度的操作,包括以下步骤计算排序结果序列中两 个位置序号的差值的绝对值,并将各计算结果进4亍加和运算得到绝对排 序结果序列;计算搜索结果序列中相应位置的两个位置序号的差值的绝 对值,并将各计算结果进行加和运算得到绝对搜索结果序列;将绝对排 序结果序列与绝对搜索结果序列的差值的绝对值作为相似度。进一步,将相似度与配置的阈值进行比较,并记录比较结果的操作,包括以下步骤判断相似度是否大于配置的阈值,如果是,将记录 结杲中相似度大于阈值的次数加1,否则,将相似度小于阈值的次数加 1;或者判断相似度与配置的阈值的差值的绝对值是否在设定范围内, 如果是,将记录结果中相似度小于阈值的次数加1,否则,将记录结果 中相似度大于阈值的次数加1。进一步,将搜索引擎搜索结果中的位置序号对应标注到各排序后分 数的操作,还包括以下步骤当计算得到的排序分数相同时,将位置序:排序后分数。 、 、 、 ;、根据本专利技术的另一个方面,还提出一种对排序结果进行验证的系 统,包括搜索引擎,根据要搜索的关键词获取搜索结果,对搜索结果 标注位置序号,并得到用位置序号组成的搜索结果序列;信息相关度计 算模块,将各搜索结果划分成具有权重系数的多个信息文本,根据关键 词与信息文本的匹配次数以及信息文本的权重系数计算信息相关度r,pwlM^ +…+ ;^濯,其中,p表示关键词在字段中的匹配次数,w表示权重系数;信息丰富度计算模块,根据各搜索结果对信息文本设 定的业务条件和权重系数计算信息丰富度c ,c = ^l*wl + F2*w2 + F3*w3 + ... + F*ww ,其中,w 表示权重系数,UVV一/^气;排序分数计算模块,根据信息相关度和信息丰富度计算排序分数ww + ^m/;按分数大小顺序排列排序分数,将搜索引 擎搜索结果中的位置序号对应标注到各排序后分数,并得到用位置序号 组成的排序结果序列;相似度计算才莫块,计算用位置序号组成的排序结果序列与用位置序号組成的搜索结果序列的相似度;配置^=莫块,配置相 似度阈值;比较模块,将相似度与配置的阈值进行比较,并记录比较结 果,当比较结果中相似度大于阈值的次数大于设定次数,或者比较结果 中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验 证,否则通过验证。进一步,相似度计算模块计算排序结果序列中位置序号与搜索结果 序列中相应位置的位置序号的差值的绝对值,并将各计算结果进行加和运算得到相似度。进一步,相似度计算模块还对各差值的绝对值配以权重系数。 进一步,相似度计算模块计算排序结果序列中两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对排序结果序列;计算 搜索结果序列中相应位置的两个位置序号的差值的绝对值,并将各计算 结果进行加和运算得到绝对搜索结果序列;将绝对糸夂序结果序列与绝对 搜索结果序列的差值的绝对值作为相似度。进一步,比较模块判断相似度是否大于配置的阈值,如果是,将相 似度大于阈值的次数加1,否则,将相似度小于阈值的次数加1;或者 比较模块判断相似度与配置的阈值的差值的绝对值是否在设定范围内, 如果是,将记录结果中相似度小于阅值的次数加1,否则,将记录结果 中相似度大于阈值的次数加1。进一步,排序分数计算模块在排序分数相同时,将位置序号在搜索 结果序列中的排列顺序按照排序分数的排列顺序标注到对应的各排序后 分数。与现有技术相比,本专利技术具有以下优点和效果提出排序相似度作为比较排序算法效果的量化指标,通过简化搜索 方法及相似度计算得出合理的衡量标准,可以对多个搜索算法的效果进 行比较。提供了科学的方法,构造一个自动检验搜索排序结果的系统,通过 自动量化而非人工的方式对搜索排序结果进行验证,大大减少了检验排 序效果的人为主观性,提高检验排序结果的效率。附图说明图l为本专利技术一种对排序结果进行验证的方法流程图。 图2为本专利技术一种对排序结果进行l^正的系统结构图。具体实施例方式垂直搜索引擎在面临新增调整需求时,需要通过调整排序算法或参9数来实现相关功能,但目前对于频繁调整后的排序结果无较好方式进行自动化测试及量化衡量,这给后续用户体验带来了 一定的风险。本专利技术的目的是提出一种搜索结果排序效果的量化指标,并根据这一指标创建一套切实可用的排序验证规则,将排序算法的实现结果通过量化数字的形式进行展现,可以使测试人员更为直^见和全面的对各类情况进行客观判断,进一步做到排序的自动化本文档来自技高网...

【技术保护点】
一种对排序结果进行验证的方法,包括以下步骤: 搜索引擎根据要搜索的关键词获取搜索结果,并对搜索结果标注位置序号,得到用位置序号组成的搜索结果序列; 将各搜索结果划分成具有权重系数的多个信息文本,根据关键词与信息文本的匹配次数以及 信息文本的权重系数计算信息相关度r,r=p1*w1+p2*w2+...+pn*wn,其中,p表示关键词在字段中的匹配次数,w表示权重系数; 根据对信息文本设定的业务条件和权重系数计算信息丰富度c,c=F1*w1+F2*w2+F3*w3 +...+Fn*wn,其中,w表示权重系数,F↓[n-1]*w↓[n-1]>F↓[n]*w↓[n]; 根据信息相关度和信息丰富度计算排序分数score=r*w+c*w′; 按分数大小顺序排列排序分数,并将搜索引擎搜索结果中的位置 序号对应标注到各排序后分数,得到用位置序号组成的排序结果序列;计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度; 将相似度与配置的阈值进行比较,并记录比较结果,在比较结果中包括相似度大于阈值的次数以及相似度小于阈 值的次数; 当比较结果中相似度大于阈值的次数大于设定次数,或者比较结果中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验证,否则通过验证。...

【技术特征摘要】
1.一种对排序结果进行验证的方法,包括以下步骤搜索引擎根据要搜索的关键词获取搜索结果,并对搜索结果标注位置序号,得到用位置序号组成的搜索结果序列;将各搜索结果划分成具有权重系数的多个信息文本,根据关键词与信息文本的匹配次数以及信息文本的权重系数计算信息相关度r,r=p1*w1+p2*w2+...+pn*wn,其中,p表示关键词在字段中的匹配次数,w表示权重系数;根据对信息文本设定的业务条件和权重系数计算信息丰富度c,c=F1*w1+F2*w2+F3*w3+...+Fn*wn,其中,w表示权重系数,Fn-1*wn-1>Fn*wn;根据信息相关度和信息丰富度计算排序分数score=r*w+c*w′;按分数大小顺序排列排序分数,并将搜索引擎搜索结果中的位置序号对应标注到各排序后分数,得到用位置序号组成的排序结果序列;计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度;将相似度与配置的阈值进行比较,并记录比较结果,在比较结果中包括相似度大于阈值的次数以及相似度小于阈值的次数;当比较结果中相似度大于阈值的次数大于设定次数,或者比较结果中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验证,否则通过验证。2. 根据权利要求1所述对排序结果进行验证的方法,其中,计算 用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相 似度的操作,包括以下步骤计算排序结果序列中位置序号与搜索结果序列中相应位置的位置序号的差值的绝对值;将各计算结果进行加和运算得到相似度。3. 根据权利要求2所述对排序结果进行验证的方法,其中,计算差值的绝对值的操作,还包括对各差值的绝对值配以权重系数的步骤。4. 根据权利要求l所述对排序结果进行验证的方法,其中,计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度的操作,包括以下步骤计算排序结果序列中两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对排序结果序列;计算搜索结果序列中相应位置的两个位置序号的差值的绝对值,并 将各计算结果进行加和运算得到绝对搜索结果序列;将绝对排序结果序列与绝对搜索结果序列的差值的绝对值作为相似度。5. 根据权利要求1所述对排序结果进行验证的方法,其中,将相 似度与配置的阈值进行比较,并记录比较结果的操作,包括以下步骤判断相似度是否大于配置的阁值,如果是,将记录结果中相似度大 于阈值的次数加l,否则,将相似度小于阈值的次数加l;或者判断相似度与配置的阈值的差值的绝对值是否在设定范围内,如果 是,将记录结果中相似度小于阈值的次数加1,否则,将记录结果中相 似度大于阈值的次数加1。6. 根据权利要求1所述对排序结果进行验证的方法,其中,将搜 索引擎搜索结果中的位置序号对应标注到各排序后分数的操作,还包括...

【专利技术属性】
技术研发人员:余锦婷徐雄杨翊平
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1