用于挖掘直播间搜索词的同义词的方法、相关存储介质和设备技术

技术编号:18553809 阅读:39 留言:0更新日期:2018-07-28 10:52
本发明专利技术提供了一种用于挖掘直播间搜索词的同义词的方法,包括以下步骤:S1,获取在预设时间段内待查询搜索词和待挖掘的搜索词库中的每一搜索词分别所对应的被点击的直播间的信息;S2,利用步骤S1获得的所述信息计算所述待查询搜索词与所述待挖掘的搜索词库中的每一搜索词之间的余弦相似度值;S3,按照所述余弦相似度值的大小对所述待挖掘的搜索词库中的搜索词进行从大到小排序,并且选择前N个搜索词作为所述待查询搜索词的同义词,其中N为预先设定的正整数。本发明专利技术还涉及相关的计算机可读存储介质以及电子设备。

【技术实现步骤摘要】
用于挖掘直播间搜索词的同义词的方法、相关存储介质和设备
本专利技术涉及大数据搜索领域,具体涉及一种用于挖掘直播间搜索词的同义词的方法、相关计算机可读存储介质和设备。
技术介绍
在直播平台上,用户在搜索直播间时,往往会输入一个词或者短语,就会得到一系列符合搜索词的直播间结果。然而在直播平台上,主播都会有一些外号和称呼,主播的粉丝们往往倾向于搜索这些词汇而不是直播间本身的名字。因此,需要挖掘直播间的同义词,用户搜索这些同义词也能返回正确的结果。通常挖掘搜索词同义词的方法有以下几种:(1)基于简单的统计,将发生了搜索点击行为的主播对应的搜索词进行统计,从出现次数较多的词中人工筛选,这样做的成本较大,且结果不可靠。(2)基于上下文关系,对于两个词语,如果它们出现的上下文词语是相同的,那么这两个词很有可能是近义词或同义词。然而,在直播平台上用户的搜索词较短,很难有上下文环境。因此,有必要提出一种新的用于挖掘直播间搜索词的同义词的方法。
技术实现思路
有鉴于此,为了克服上述问题的至少一个方面,本专利技术的实施例提供了一种实现挖掘直播间搜索词的同义词的方法。根据本专利技术的一个方面,提供了一种用于挖掘直播间搜索词的同义词的方法,包括步骤:S1,获取在预设时间段内待查询搜索词和待挖掘的搜索词库中的每一搜索词分别所对应的被点击的直播间的信息;S2,利用步骤S1获得的所述信息计算所述待查询搜索词与所述待挖掘的搜索词库中的每一搜索词之间的余弦相似度值;S3,按照所述余弦相似度值的大小对所述待挖掘的搜索词库中的搜索词进行从大到小排序,并且选择前N个搜索词作为所述待查询搜索词的同义词,其中N为预先设定的正整数。例如,步骤S1进一步包括:S11,获取所述待查询搜索词Q所对应的被点击的直播间集合R,其中,对于任意一个直播间r,r∈R,其被点击的次数是CQr;S22,获取待挖掘搜索词库中的每一搜索词Qj所对应的被点击的直播间集合Rj,1≤j≤m,m为待挖掘搜索词库中待挖掘搜索词总数,其中,对于任意一个直播间r,r∈Rj,其被点击的次数是例如,根据下式计算所述待查询搜索词Q与所述待挖掘搜索词库中的每一搜索词Qj之间的余弦相似度值:其中,cossim(Q,Qj)是所述待查询搜索词Q和所述待挖掘搜索词库中的每一搜索词Qj的余弦相似度。进一步地,步骤S22进一步包括:获取待挖掘的搜索词库中的每一搜索词Qj所对应的被搜索次数。进一步地,步骤S3进一步包括:按照所述余弦相似度值的大小对所述待挖掘的搜索词库中的搜索词进行从大到小排序,在所述前N个搜索词中选择被搜索次数大于S次的作为所述待查询搜索词的同义词,其中S为预先设定的正整数。本专利技术还提供一种计算机可读存储介质,其上存储有可执行指令,所述指令在由处理器执行时,实现如上所述的任一种挖掘直播间搜索词的同义词的方法的步骤。本专利技术还提供了一种电子设备,其包括:存储器,用于存储可执行指令;以及处理器,用于执行所述存储器中存储的可执行指令,以实现如上所述的任一种挖掘直播间搜索词的同义词的方法的步骤。与现有技术相比,本专利技术具有以下优点:能够快速有效的找到直播间搜索词的同义词,从而在搜索与直播间同名的搜索词的同义词时,能够快速关联并显示相关直播间,从而进入该直播间。附图说明通过下文中参照附图对本专利技术所作的描述,本专利技术的其它目的和优点将显而易见,并可帮助对本专利技术有全面的理解。图1为本专利技术实施例提供的实现挖掘直播间搜索词的同义词的方法的实施步骤的流程图;图2为本专利技术实施例提供的计算机可读存储介质的结构示意图;图3为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例的附图,对本专利技术的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术的一个实施例,而不是全部的实施例。基于所描述的本专利技术的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。除非另外定义,本专利技术使用的技术术语或者科学术语应当为本专利技术所属领域内具有一般技能的人士所理解的通常意义。根据本专利技术的一个方面,提供了一种挖掘直播间搜索词的同义词的方法,具体实现思路如下:对预设时间段内的用户搜索点击行为进行统计,得到每个搜索词对应的一个或多个直播间中的每个直播间的被点击次数,进而根据每个搜索词对应的直播间集合不同,直播间集合中每个直播间的被点击的次数的不同,计算两个搜索词的余弦相似度,从而得到与直播间同名的搜索词的同义词。由此,当与直播间同名的搜索词的同义词被搜索时,也能够快速关联并显示该直播间,从而进入该直播间。更具体的,下面结合附图对本专利技术实现挖掘直播间搜索词的同义词的方法进行详细的描述。参考图1所示,本专利技术的实施例提供的用于挖掘直播间搜索词的同义词的方法,可以包括如下步骤:S1,获取在预设时间段内待查询搜索词和待挖掘的搜索词库中的每一搜索词分别所对应的被点击的直播间的信息;在本实施例中,预设时间段可以是7天。当然在其他实施例中,也可以是其他时间长度,比如可以为更长的时间长度,例如30天,还可以为较短的时间长度,例如数小时。在此,比如可以获取7天内待查询搜索词所对应的被点击的直播间的信息,以及获取7天内待挖掘的搜索词库中的每一个搜索词所对应的被点击的直播间的信息。S2,利用步骤S1获得的相关信息计算待查询搜索词与待挖掘的搜索词库中的每一搜索词之间的余弦相似度值;S3,按照计算得出的余弦相似度值的大小对待挖掘的搜索词库中的搜索词进行从大到小排序,并且选择前N个搜索词作为待查询搜索词的同义词,其中N为预先设定的正整数。在本实施例中,选择前20个搜索词作为待查询搜索词的同义词。在本实施例中,步骤S1可以进一步包括,S11,获取待查询搜索词Q所对应的被点击的直播间集合R,其中,对于任意一个直播间r,r∈R,其被点击的次数是CQr;S22,获取待挖掘搜索词库中的每一搜索词Qj所对应的被点击的直播间集合Rj,1≤j≤m,m为待挖掘搜索词库中待挖掘搜索词总数,其中,对于任意一个直播间r,r∈Rj,其被点击的次数是在本实施例中,可以根据下式计算待查询搜索词Q与待挖掘搜索词库中的每一搜索词Qj之间的余弦相似度值:其中,cossim(Q,Qj)是待查询搜索词Q和待挖掘搜索词库中的每一搜索词Qj的余弦相似度。需要说明的是,待查询搜索词Q和待挖掘搜索词库中的每一搜索词Qj的余弦相似度值越大,说明两者的相似度越高。在进一步较佳实施例中,步骤S22还可以进一步包括:获取待挖掘的搜索词库中的每一搜索词Qj所对应的被搜索次数。在进一步较佳实施例中,步骤S3可以进一步包括:按照所计算的余弦相似度值的大小对待挖掘的搜索词库中的搜索词进行从大到小排序,在前N个搜索词中选择被搜索次数大于S次的作为待查询搜索词的同义词,其中S为预先设定的正整数。在具体实施过程中,S可以取10,即按照余弦相似度值的大小对待挖掘的搜索词库中的搜索词进行从大到小排序,在前20个搜索词中选择被搜索次数大于10次的作为待查询搜索词的同义词。下面列举一个实际例子具体说明本专利技术是如何基于余弦相似度来挖掘直播间搜索词的同义词的。假设搜索词A对应的直播间集合为(a,b,c),即当用户通过搜索词A搜索直播间时,用户所点击进本文档来自技高网...

【技术保护点】
1.一种用于挖掘直播间搜索词的同义词的方法,包括以下步骤:S1,获取在预设时间段内待查询搜索词和待挖掘的搜索词库中的每一搜索词分别所对应的被点击的直播间的信息;S2,利用步骤S1获得的所述信息计算所述待查询搜索词与所述待挖掘的搜索词库中的每一搜索词之间的余弦相似度值;S3,按照所述余弦相似度值的大小对所述待挖掘的搜索词库中的搜索词进行从大到小排序,并且选择前N个搜索词作为所述待查询搜索词的同义词,其中N为预先设定的正整数。

【技术特征摘要】
1.一种用于挖掘直播间搜索词的同义词的方法,包括以下步骤:S1,获取在预设时间段内待查询搜索词和待挖掘的搜索词库中的每一搜索词分别所对应的被点击的直播间的信息;S2,利用步骤S1获得的所述信息计算所述待查询搜索词与所述待挖掘的搜索词库中的每一搜索词之间的余弦相似度值;S3,按照所述余弦相似度值的大小对所述待挖掘的搜索词库中的搜索词进行从大到小排序,并且选择前N个搜索词作为所述待查询搜索词的同义词,其中N为预先设定的正整数。2.如权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:S11,获取所述待查询搜索词Q所对应的被点击的直播间集合R,其中,对于任意一个直播间r,r∈R,其被点击的次数是CQr;S22,获取待挖掘搜索词库中的每一搜索词Qj所对应的被点击的直播间集合Rj,1≤j≤m,m为待挖掘搜索词库中待挖掘搜索词总数,其中,对于任意一个直播间r,r∈Rj,其被点击的次数是3.如权利要求2所述的方法,其特征在于,根据...

【专利技术属性】
技术研发人员:王璐陈少杰张文明
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1