判断搜索意图识别有效性的评价方法、存储介质和设备技术

技术编号:18711092 阅读:41 留言:0更新日期:2018-08-21 22:42
本发明专利技术提供一种判断搜索意图识别有效性的评价方法,包括以下步骤:S1,获取待评价搜索意图识别过程中的分词的总数量以及每个分词的信息;S2,根据所述信息,分别计算所述每个分词所对应的词频之和以及倒排文档频率;S3,利用步骤S2得到的所述每个分词所对应的词频之和以及倒排文档频率计算所述待评价搜索意图识别过程的有效性评分,进而判断所述搜索意图识别过程是否有效。本发明专利技术还涉及相关的计算机可读存储介质以及电子设备。

Evaluation method, storage medium and device for judging validity of search intention recognition

The invention provides an evaluation method for judging the validity of search intention recognition, including the following steps: S1, obtaining the total number of words and the information of each word in the process of searching intention recognition to be evaluated; S2, according to the information, calculating the sum of word frequencies corresponding to each word and inverted document frequency respectively; 3. The validity score of the search intention recognition process to be evaluated is calculated by using the sum of the word frequencies corresponding to each participle obtained by R2 and the inverted document frequencies, and then the validity of the search intention recognition process is judged. The invention also relates to the related computer readable storage medium and electronic equipment.

【技术实现步骤摘要】
判断搜索意图识别有效性的评价方法、存储介质和设备
本专利技术涉及大数据搜索领域,具体涉及一种用于判断搜索意图识别有效性的评价方法、相关存储介质和电子设备。
技术介绍
在直播平台上,可以根据用户的搜索查询猜测用户的真实意图,通过其真实意图返回更加准确的搜索结果。然而,究竟该结果能够在多大程度上反映用户的真实意图是需要进行度量的,如果相关性很差那么这种识别出来的弱意图产生的实际效用会非常低。因此,我们需要解决的问题是如何对意图匹配的相关性进行衡量,从而判断意图识别的有效性。不同于直接根据搜索词的文本匹配返回结果的场景,在使用意图识别算法后返回的搜索结果与搜索词之间可能并没有文本上的相关性,因此采用文本编辑距离去衡量相关性就显得十分片面。因此,有必要提出一种新的用于判断搜索意图识别有效性的评价方法。
技术实现思路
有鉴于此,为了克服上述问题的至少一个方面,本专利技术的实施例提供了一种基于TF-IDF判断搜索意图识别有效性的评价方法。根据本专利技术的一个方面,提供了一种判断搜索意图识别有效性的评价方法,包括步骤:S1,获取待评价搜索意图识别过程中的分词的总数量以及每个分词的信息;S2,根据所述信息,分别计算所述每个分词所对应的词频之和以及倒排文档频率;S3,利用步骤S2得到的所述每个分词所对应的词频之和以及倒排文档频率计算所述待评价搜索意图识别过程的有效性评分,进而判断所述搜索意图识别过程是否有效。例如,所述信息包括所述每个分词匹配到的意图域,其中每个意图域均具有预设的权重;所述每个分词在所述意图域中匹配到的次数;用户在预设时间段内的搜索总次数,以及所述搜索总次数中的包含所述每个分词的搜索次数。例如,根据下式计算每个分词所对应的词频之和:其中,H是匹配到的意图域集合,由多个不同的意图域组成,f是其中的一个意图域;是分词ti在意图域f中可以匹配到的次数;nf是意图域f中词语的个数;wf是意图域f的权重。例如,根据下式计算每个分词所对应的倒排文档频率其中,N为用户在预设时间段内的搜索总次数;N(ti)为包含每个分词ti的搜索的次数,log为自然对数。例如,根据下式计算待评价搜索意图识别过程的有效性评分R:其中,n为分词的总数量。进一步地,步骤S3进一步包括:将有效性评分与预设阈值进行比较,若有效性评分大于预设阈值,则判定所述搜索意图识别过程是有效的;若有效性评分小于预设阈值,则判定所述搜索意图识别过程是无效的。本专利技术还提供一种计算机可读存储介质,其上存储有可执行指令,其特征在于,所述指令在由处理器执行时,实现如上所述的任一种判断搜索意图识别有效性的评价方法的步骤。本专利技术还提供了一种电子设备,包括:存储器,用于存储可执行指令;以及处理器,用于执行所述存储器中存储的可执行指令,以实现如上所述的任一种判断搜索意图识别有效性的评价方法的步骤。与现有技术相比,本专利技术能够科学、准确的判断搜索意图识别是否有效,解决了传统相关性评价方法无法适用的问题。附图说明通过下文中参照附图对本专利技术所作的描述,本专利技术的其它目的和优点将显而易见,并可帮助对本专利技术有全面的理解。图1为本专利技术实施例提供的判断搜索意图识别有效性的评价方法的实施步骤的流程图;图2为本专利技术实施例提供的计算机可读存储介质的结构示意图;图3为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例的附图,对本专利技术的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术的一个实施例,而不是全部的实施例。基于所描述的本专利技术的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。除非另外定义,本专利技术使用的技术术语或者科学术语应当为本专利技术所属领域内具有一般技能的人士所理解的通常意义。在本文中,表述搜索意图指根据用户搜索查询短语判断出的用户实际想搜索的意图内容。表述意图域指根据业务经验对用户的搜索意图进行划分的意图集合,在直播搜索中常见的有主播意图域、分区意图域等。每个意图域由若干索引词组成。根据本专利技术的一个方面,提供了一种判断搜索意图识别有效性的评价方法,具体实现思路如下:基于TF-FID,计算对搜索意图识别过程中分词处理后得到的所有分词的词频以及在预设时间段内出现的频率,由此得到对该次搜索意图识别过程的评价分,从而可以判断该次识别过程是否是有效的。更具体的,下面结合附图对本专利技术判断搜索意图识别有效性的评价方法进行详细的描述。参考图1所示,本专利技术的实施例提供的用于判断搜索意图识别有效性的评价方法,可以包括如下步骤:S1,获取待评价搜索意图识别过程中的分词的总数量以及每个分词的信息;在本实施例中,每个分词的信息可以包括每个分词所匹配到的意图域,需要说明的是,每个分词匹配到的意图域数量可以不同,种类也可以不同,例如,分词t1可以匹配到一个意图域A,而分词t2可以匹配到意图域B和意图域C。而且不同的意图域均具有预设权重,权重是可以根据之前业务经验设定的。每个分词的信息还可以包括每个分词在各自匹配到的意图域中可以匹配到的次数,即,分词可以匹配到意图域中词语的次数。例如,分词t1可以匹配到意图域A中的词语5次,而分词t2可以匹配到意图域B中词语2次和意图域C中的词语3次。每个分词的信息还可以包括一个预设时间段内用户所搜索的总次数中,总次数中包含每个分词的搜索的次数。在本实施例中,预设时间段可以是30天。当然在其他实施例中,也可以是其他时间长度。例如,在30天内,所有用户一共进行了100000次搜索,其中包含分词t1的次数为100次,包含分词t2的次数为200次。S2,根据信息,分别计算每个分词所对应的词频之和以及倒排文档频率;在本实施例中,可以根据下式计算每个分词所对应的词频之和:其中,H是所有分词可以匹配到的意图域集合,由多个不同的意图域组成,f是其中的一个意图域;是分词ti在意图域f中可以匹配到的次数;nf是意图域f中词语的个数;wf是意图域f的权重。在本实施例中,可以根据下式计算每个分词所对应的倒排文档频塞其中,N为用户在预设时间段内的搜索总次数;N(ti)为包含每个分词ti的搜索的次数,log为自然对数。S3,利用步骤S2得到的每个分词所对应的词频之和以及倒排文档频率计算待评价搜索意图识别过程的有效性评分,进而判断搜索意图识别过程是否有效。在本实施例中,可以根据下式计算待评价搜索意图识别过程的有效性评分R:其中,n为分词的总数量。在进一步较佳实施例中,步骤S3可以进一步包括:将有效性评分与预设阈值进行比较,若有效性评分大于预设阈值,则可以判定搜索意图识别过程是有效的;若有效性评分小于预设阈值,则可以判定搜索意图识别过程是无效的。下面列举一个实际例子具体说明本专利技术是如何判断搜索意图识别有效性的评价的。假设现在有三个意图域,每个意图域的词语个数以及权重分别是:意图域A:nA=1000,wA=1.0意图域B:nB=500,wB=0.5意图域C:nC=100,wC=0.8在一次识别中,根据分词可以分成两个词语t1、t2其中t1匹配到了意图域A中的词语5次,t2匹配到了意图域B中的词语2次、意图域C中的词语1次。在30天内用户总共有100000次搜索,其中包含词语t1的搜索有100次,包含词本文档来自技高网...

【技术保护点】
1.一种判断搜索意图识别有效性的评价方法,包括以下步骤:S1,获取待评价搜索意图识别过程中的分词的总数量以及每个分词的信息;S2,根据所述信息,分别计算所述每个分词所对应的词频之和以及倒排文档频率;S3,利用步骤S2得到的所述每个分词所对应的词频之和以及倒排文档频率计算所述待评价搜索意图识别过程的有效性评分,进而判断所述搜索意图识别过程是否有效。

【技术特征摘要】
1.一种判断搜索意图识别有效性的评价方法,包括以下步骤:S1,获取待评价搜索意图识别过程中的分词的总数量以及每个分词的信息;S2,根据所述信息,分别计算所述每个分词所对应的词频之和以及倒排文档频率;S3,利用步骤S2得到的所述每个分词所对应的词频之和以及倒排文档频率计算所述待评价搜索意图识别过程的有效性评分,进而判断所述搜索意图识别过程是否有效。2.如权利要求1所述的方法,其特征在于,所述信息包括所述每个分词匹配到的意图域,其中每个意图域均具有预设的权重;所述每个分词在所述意图域中匹配到的次数;用户在预设时间段内的搜索总次数,以及所述搜索总次数中的包含所述每个分词的搜索次数。3.如权利要求2所述的方法,根据下式计算每个分词所对应的词频之和:其中,H是匹配到的意图域集合,由多个不同的意图域组成,f是其中的一个意图域;是分词ti在意图域f中可以匹配到的次数;nf是意图域f中词语的个数;wf是...

【专利技术属性】
技术研发人员:王璐陈少杰张文明
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1