The invention provides an evaluation method for judging the validity of search intention recognition, including the following steps: S1, obtaining the total number of words and the information of each word in the process of searching intention recognition to be evaluated; S2, according to the information, calculating the sum of word frequencies corresponding to each word and inverted document frequency respectively; 3. The validity score of the search intention recognition process to be evaluated is calculated by using the sum of the word frequencies corresponding to each participle obtained by R2 and the inverted document frequencies, and then the validity of the search intention recognition process is judged. The invention also relates to the related computer readable storage medium and electronic equipment.
【技术实现步骤摘要】
判断搜索意图识别有效性的评价方法、存储介质和设备
本专利技术涉及大数据搜索领域,具体涉及一种用于判断搜索意图识别有效性的评价方法、相关存储介质和电子设备。
技术介绍
在直播平台上,可以根据用户的搜索查询猜测用户的真实意图,通过其真实意图返回更加准确的搜索结果。然而,究竟该结果能够在多大程度上反映用户的真实意图是需要进行度量的,如果相关性很差那么这种识别出来的弱意图产生的实际效用会非常低。因此,我们需要解决的问题是如何对意图匹配的相关性进行衡量,从而判断意图识别的有效性。不同于直接根据搜索词的文本匹配返回结果的场景,在使用意图识别算法后返回的搜索结果与搜索词之间可能并没有文本上的相关性,因此采用文本编辑距离去衡量相关性就显得十分片面。因此,有必要提出一种新的用于判断搜索意图识别有效性的评价方法。
技术实现思路
有鉴于此,为了克服上述问题的至少一个方面,本专利技术的实施例提供了一种基于TF-IDF判断搜索意图识别有效性的评价方法。根据本专利技术的一个方面,提供了一种判断搜索意图识别有效性的评价方法,包括步骤:S1,获取待评价搜索意图识别过程中的分词的总数量以及每个分词的信息;S2,根据所述信息,分别计算所述每个分词所对应的词频之和以及倒排文档频率;S3,利用步骤S2得到的所述每个分词所对应的词频之和以及倒排文档频率计算所述待评价搜索意图识别过程的有效性评分,进而判断所述搜索意图识别过程是否有效。例如,所述信息包括所述每个分词匹配到的意图域,其中每个意图域均具有预设的权重;所述每个分词在所述意图域中匹配到的次数;用户在预设时间段内的搜索总次数,以及所述搜索总次数中的 ...
【技术保护点】
1.一种判断搜索意图识别有效性的评价方法,包括以下步骤:S1,获取待评价搜索意图识别过程中的分词的总数量以及每个分词的信息;S2,根据所述信息,分别计算所述每个分词所对应的词频之和以及倒排文档频率;S3,利用步骤S2得到的所述每个分词所对应的词频之和以及倒排文档频率计算所述待评价搜索意图识别过程的有效性评分,进而判断所述搜索意图识别过程是否有效。
【技术特征摘要】
1.一种判断搜索意图识别有效性的评价方法,包括以下步骤:S1,获取待评价搜索意图识别过程中的分词的总数量以及每个分词的信息;S2,根据所述信息,分别计算所述每个分词所对应的词频之和以及倒排文档频率;S3,利用步骤S2得到的所述每个分词所对应的词频之和以及倒排文档频率计算所述待评价搜索意图识别过程的有效性评分,进而判断所述搜索意图识别过程是否有效。2.如权利要求1所述的方法,其特征在于,所述信息包括所述每个分词匹配到的意图域,其中每个意图域均具有预设的权重;所述每个分词在所述意图域中匹配到的次数;用户在预设时间段内的搜索总次数,以及所述搜索总次数中的包含所述每个分词的搜索次数。3.如权利要求2所述的方法,根据下式计算每个分词所对应的词频之和:其中,H是匹配到的意图域集合,由多个不同的意图域组成,f是其中的一个意图域;是分词ti在意图域f中可以匹配到的次数;nf是意图域f中词语的个数;wf是...
【专利技术属性】
技术研发人员:王璐,陈少杰,张文明,
申请(专利权)人:武汉斗鱼网络科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。