一种基于抛物线模型的搜索降维方法技术

技术编号:36930477 阅读:48 留言:0更新日期:2023-03-22 18:53
本申请涉及搜索降维的技术领域,尤其涉及一种基于抛物线模型的搜索降维方法。本申请通过获取搜索词的搜索领域,然后匹配该搜索领域的抛物线模型,从而对不同领域的频繁项集进行更加准确地评价,通过使用抛物线模型近似模拟正态分布模型,从而对各个频繁项集进行评价,在对频繁项集进行客观评价的同时,易于算法实现,简化了计算量,提高了效率。提高了效率。提高了效率。

【技术实现步骤摘要】
一种基于抛物线模型的搜索降维方法


[0001]本申请涉及搜索降维的
,尤其是涉及一种基于抛物线模型的搜索降维方法。

技术介绍

[0002]目前,在搜索领域,针对数据量较多的训练语料,通常采用频繁模式树FP

TREE或者其他模型挖掘出频繁项集。
[0003]但是针对挖掘出的多个频繁项集,各个频繁项集出现的次数不同,对应各个频繁项集的重要程度也有所不同,如果能够对各个频繁项集的重要程度进行评价,就可以根据频繁项集的评价值判断其重要程度,为搜索降维提供对应的参考,从而提高召回数据的匹配程度。
[0004]目前的搜索降维方法中,对搜索词进行分词后,基于分词对应的频繁项集,按照频繁项集出现的次数成比例地对分词的重要程度进行评价。但是,由于对于出现的次数太多的频繁项集,其包含的信息量较小;而对于出现的次数太少的频繁项集,一般认为是不重要的项集。因此现有的评价方法不能准确判断分词的重要程度,在进行降维时准确降维,导致降维后的词语无法准确匹配到搜索数据。
[0005]对此,一些现有技术采用正态分布模型对频繁项集进行评价,但是采用正态分布模型实现复杂,需要浪费较大的运算量,且对于不同的搜索领域采用的评价方法单一,评价不准确,对此情况有待进一步改善。

技术实现思路

[0006]为了解决现有的采用正态分布模型进行评价浪费较大的运算量的问题,本申请提供一种基于抛物线模型的搜索降维方法,采用如下的技术方案:第一方面,本申请提供一种基于抛物线模型的搜索降维方法,包括如下步骤:获取搜索词的搜索领域,所述搜索领域可以为一个或多个;基于所述搜索领域匹配预设的抛物线模型;对搜索词进行分词,得到目标词语集合;基于将所述目标词语集合输入已匹配抛物线模型,得到各个目标词语的评价值,所述评价值用于指示各个目标词语的重要程度;基于各个目标词语的评价值确定降维后的目标搜索词组。
[0007]通过采用上述技术方案,本申请通过获取搜索词的搜索领域,基于搜索领域匹配预设的抛物线模型,然后对搜索词进行分词,得到目标词语集合,基于对目标词语集合输入已匹配抛物线模型,得到各个目标词语的评价值,然后基于各个目标词语的评价值确定降维后的目标搜索词组。其中,通过获取搜索词的搜索领域匹配该搜索领域的抛物线模型,从而对不同领域的频繁项集进行更加准确地评价,通过使用抛物线模型近似模拟正态分布模型,从而对各个频繁项集进行评价,在对频繁项集进行客观评价的同时,易于算法实现,简
化了计算量,提高了效率。
[0008]可选的,所述抛物线模型包括参数h、k和a,所述抛物线模型的公式为:y=a(x

h)
²
+k;其中,参数h为所述搜索领域的最佳频繁项集次数,参数k为所述搜索领域的领域评价参数,参数a=

k/h
²
,h>0,k>0,y>0。
[0009]通过采用上述技术方案,具体公开了抛物线的公式,基于最佳项集次数h和领域评价参数k建立符合对应的搜索领域的抛物线模型,从而针对不同的
采用一套预设的评分标准进行评分,客观地对各个频繁项集进行评价,从而得到重要程度的信息。此外,此抛物线经过原点和x=2h的点,当频繁项集出现的次数大于两倍最佳频繁项集次数时,直接进行过滤,以节省计算资源。
[0010]可选的,所述最佳频繁项集次数的获取过程包括:获取目标搜索领域,获取所述目标搜索领域的频繁项集;统计所述频繁项集,得到各个频繁项集对应的频次;基于各个频繁项集对应的频次,确定最佳频繁项集次数。
[0011]通过采用上述技术方案,本申请通过获取目标搜索领域的频繁项集,统计各个频繁项集对应的频次,基于各个频繁项集对应的频次,确定一个最佳频繁项集次数,从而基于最佳频繁项集次数建立目标搜索领域的抛物线模型。
[0012]可选的,所述基于各个频繁项集对应的频次,确定最佳频繁项集次数的过程中,包括:统计目标搜索领域的全部项集数据,得到所述目标搜索领域的项集总数;将所述项集总数的1/50确定为最佳频繁项集次数。
[0013]通过采用上述技术方案,对于每一个目标搜索领域,基于目标搜索领域的项集总数,确定一个最佳频繁项集次数,从而为不同的目标搜索领域确定合适的最佳频繁项集次数。
[0014]可选的,所述基于各个目标词语的评价值确定降维后的目标搜索词组的过程中,包括:将各个目标词语的评价值按照从高到低的顺序进行排序,得到目标词语排序集合;将目标词组排序集合的前N个词语确定为降维后的目标搜索词组,其中,N>1。
[0015]通过采用上述技术方案,将各个目标词语的评价值按照从高到低的顺序进行排序,得到目标词语排序集合,将目标词组排序集合的前N个词语确定为降维后的目标搜索词组,从而使降维后的目标搜索词组更准确匹配到想要搜索的数据。
[0016]可选的,所述领域评价参数的获取过程包括:获取全部搜索领域;获取历史搜索数据;基于历史搜索数据中各个搜索领域的被搜索次数,确定各个搜索领域对应的所述领域评价参数,其中,被搜索次数越多,领域评价参数越高。
[0017]通过采用上述技术方案,通过获取全部搜索领域和历史搜索数据,基于历史搜索
数据中各个搜索领域的被搜索次数,确定各个搜索领域对应的领域评价参数;当搜索词匹配的搜索领域为多个时,不同搜索领域匹配的抛物线模型也为多个,在不同的搜索领域中,各个目标词语对应的重要程度也不相同,通过对不同搜索领域设置不同的评价参数,从而获取目标词语在不同搜索领域的评价值,并且被搜索次数越多的搜索领域中,领域评价参数更高,最后基于评价值确定降维后的目标搜索词组。
[0018]可选的,所述领域评价参数的获取过程包括:获取全部搜索领域;获取各个搜索领域关联的业务重要程度;基于所述业务重要程度,确定各个搜索领域对应的所述领域评价参数,其中,业务重要程度越高,领域评价参数越高。
[0019]通过采用上述技术方案,通过获取全部搜索领域和各个搜索领域关联的业务重要程度,基于各个搜索领域关联的业务重要程度,确定各个搜索领域对应的领域评价参数;当搜索词匹配的搜索领域为多个时,不同搜索领域匹配的抛物线模型也为多个,在不同的搜索领域中,各个目标词语对应的重要程度也不相同,通过对不同搜索领域设置不同的评价参数,从而获取目标词语在不同搜索领域的评价值,并且业务重要程度的搜索领域,领域评价参数更高,最后基于评价值确定降维后的目标搜索词组。
[0020]第二方面,本申请提供一种基于抛物线模型的搜索降维系统,包括:搜索领域获取模块,用于获取搜索词的搜索领域,所述搜索领域可以为一个或多个;抛物线模型获取模块,用于基于所述搜索领域匹配预设的抛物线模型;目标词语集合获取模块,用于对搜索词进行分词,得到目标词语集合;评价值获取模块,用于基于将所述目标词语集合输入已匹配抛物线模型,得到各个目标词语的评价值,所述评价值用于指示各个目标词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于抛物线模型的搜索降维方法,其特征在于,包括如下步骤:获取搜索词的搜索领域,所述搜索领域可以为一个或多个;基于所述搜索领域匹配预设的抛物线模型;对搜索词进行分词,得到目标词语集合;基于将所述目标词语集合输入已匹配抛物线模型,得到各个目标词语的评价值,所述评价值用于指示各个目标词语的重要程度;基于各个目标词语的评价值确定降维后的目标搜索词组。2.根据权利要求1所述的基于抛物线模型的搜索降维方法,其特征在于,所述抛物线模型包括参数h、k和a,所述抛物线模型的公式为:y=a(x

h)
²
+k;其中,参数h为所述搜索领域的最佳频繁项集次数,参数k为所述搜索领域的领域评价参数,参数a=

k/h
²
,h>0,k>0,y>0。3.根据权利要求2所述的基于抛物线模型的搜索降维方法,其特征在于,所述最佳频繁项集次数的获取过程包括:获取目标搜索领域,获取所述目标搜索领域的频繁项集;统计所述频繁项集,得到各个频繁项集对应的频次;基于各个频繁项集对应的频次,确定最佳频繁项集次数。4.根据权利要求3所述的基于抛物线模型的搜索降维方法,其特征在于,所述基于各个频繁项集对应的频次,确定最佳频繁项集次数的过程中,包括:统计目标搜索领域的全部项集数据,得到所述目标搜索领域的项集总数;将所述项集总数的1/50确定为最佳频繁项集次数。5.根据权利要求1所述的基于抛物线模型的搜索降维方法,其特征在于,所述基于各个目标词语的评价值确定降维后的目标搜索词组的过程中,包括:将各个目标词语的评价值按照从高到低的顺序进行排序,得到目标词语排序集合;将目标词组...

【专利技术属性】
技术研发人员:霍斯宁
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1