短串相关性校验方法和装置制造方法及图纸

技术编号:18657860 阅读:29 留言:0更新日期:2018-08-11 14:22
本发明专利技术公开了短串相关性校验方法和装置,所述方法包括:获取第一短串;获取与第一短串相对应的第二短串;分别将获取到的每个第二短串与第一短串组成一个校验对;获取校验对的深层语义特征;根据深层语义特征,确定出校验对中的两个短串之间的相关性。应用本发明专利技术所述方案,能够提高校验结果的准确性等。

Short string correlation checking method and device

The invention discloses a short string correlation checking method and a device, which include: acquiring the first short string; acquiring the second short string corresponding to the first short string; forming a checking pair of each second short string and the first short string respectively; acquiring the deep semantic features of the checking; and determining the deep semantic features according to the deep semantic features. The correlation between two short strings in the check pair is given. Applying the scheme of the invention can improve the veracity of the verification result and so on.

【技术实现步骤摘要】
短串相关性校验方法和装置
本专利技术涉及网络技术,特别涉及短串相关性校验方法和装置。
技术介绍
在很多场景中,都会涉及到短串相关性校验的问题,短串,通常是指比较短的字符串,如长度小于预定阈值的字符串。比如,在广告触发系统中,当用户输入查询词(query)后,会触发出一批拍卖词(bidword),需要分别确定出用户输入的query与触发出的各bidword之间的相关性,进而将相关性较高的bidword对应的广告展现给用户。短串相关性校验,即指对两个短串的相关性进行评估、进行打分等。现有技术中,主要是从文本字面相似度上来对两个短串的相关性进行校验,校验结果的准确性较差。
技术实现思路
有鉴于此,本专利技术提供了短串相关性校验方法和装置,能够提高校验结果的准确性。具体技术方案如下:一种短串相关性校验方法,包括:获取第一短串;获取与所述第一短串相对应的第二短串;分别将获取到的每个第二短串与所述第一短串组成一个校验对;获取所述校验对的深层语义特征;根据所述深层语义特征,确定出所述校验对中的两个短串之间的相关性。根据本专利技术一优选实施例,所述深层语义特征包括以下任一类特征或任意组合:行为类特征、语义类特征、IP类特征。根据本专利技术一优选实施例,所述根据所述深层语义特征,确定出所述校验对中的两个短串之间的相关性包括:将所述深层语义特征输入迭代决策树GBDT模型;将所述GBDT模型的输出结果作为所述校验对中的两个短串之间的相关性确定结果。根据本专利技术一优选实施例,所述将所述深层语义特征输入GBDT模型包括:当所述深层语义特征数大于一时,对所述深层语义特征进行预处理,包括:将符合组合要求的深层语义特征进行组合;将进行预处理后的深层语义特征输入所述GBDT模型。根据本专利技术一优选实施例,该方法进一步包括:增大选定的区分力强的深层语义特征在所述GBDT模型的处理过程中的权重。根据本专利技术一优选实施例,所述第一短串包括:查询词query;所述第二短串包括:拍卖词bidword。一种短串相关性校验装置,包括:获取模块以及处理模块;所述获取模块,用于获取第一短串,并获取与所述第一短串相对应的第二短串,将所述第一短串和所述第二短串发送给所述处理模块;所述处理模块,用于分别将获取到的每个第二短串与所述第一短串组成一个校验对,获取所述校验对的深层语义特征,根据所述深层语义特征,确定出所述校验对中的两个短串之间的相关性。根据本专利技术一优选实施例,所述深层语义特征包括以下任一类特征或任意组合:行为类特征、语义类特征、IP类特征。根据本专利技术一优选实施例,所述处理模块中包括:特征处理子单元以及相关性处理子单元;所述特征处理子单元,用于分别将获取到的每个第二短串与所述第一短串组成一个校验对,获取所述校验对的深层语义特征,将所述深层语义特征发送给所述相关性处理子单元;所述相关性处理子单元,用于将所述深层语义特征输入迭代决策树GBDT模型,将所述GBDT模型的输出结果作为所述校验对中的两个短串之间的相关性确定结果。根据本专利技术一优选实施例,所述相关性处理子单元进一步用于,当所述深层语义特征数大于一时,对所述深层语义特征进行预处理,包括:将符合组合要求的深层语义特征进行组合;将进行预处理后的深层语义特征输入所述GBDT模型。根据本专利技术一优选实施例,所述相关性处理子单元进一步用于,增大选定的区分力强的深层语义特征在所述GBDT模型的处理过程中的权重。根据本专利技术一优选实施例,所述第一短串包括:查询词query;所述第二短串包括:拍卖词bidword。基于上述介绍可以看出,采用本专利技术所述方案,可根据获取到的深层语义特征,确定出两个短串之间的相关性,从而相比于现有技术,引入了更为合理的新的特征,进而提高了校验结果的准确性,在此基础上,还可对输入深层语义特征的GBDT模型进行优化,从而进一步提高了校验结果的准确性。【附图说明】图1为本专利技术所述短串相关性校验方法实施例的流程图。图2为本专利技术所述短串相关性校验装置实施例的组成结构示意图。【具体实施方式】为了使本专利技术的技术方案更加清楚、明白,以下参照附图并举实施例,对本专利技术所述方案作进一步地详细说明。实施例一图1为本专利技术所述短串相关性校验方法实施例的流程图,如图1所示,包括以下具体实现方式:在11中,获取第一短串;在12中,获取与第一短串相对应的第二短串;在13中,分别将获取到的每个第二短串与第一短串组成一个校验对;在14中,获取每个校验对的深层语义特征;在15中,根据获取到的深层语义特征,确定出每个校验对中的两个短串之间的相关性。以广告触发系统为例,上述第一短串可为用户输入的query,相应地,第二短串可为由query触发出的bidword,通常,触发出的bidword数会大于一,即会触发出多个bidword。针对每个bidword,可分别将其与用户输入的query组成一个校验对,并分别获取每个校验对的深层语义特征,进而根据获取到的深层语义特征,确定出校验对中的两个短串之间的相关性。后续,可选取出相关性较高的bidword,并将选取出的bidword对应的广告展现给用户。其中,针对每个校验对,可分别获取其如下深层语义特征:行为类特征、语义类特征、IP类特征,根据实际需要,可获取上述任一类特征或其任意组合。语义类特征可包括word2vec特征、GloVe特征等。可通过收集到的训练样本训练得到一个word2vec模型,针对每个校验对,可分别将该校验对中的信息输入给word2vec模型,从而得到word2vec模型输出的word2vec向量,该word2vec向量即为所需的word2vec特征。如何得到训练样本以及如何训练得到word2vec模型为现有技术。另外,针对每个校验对,还可通过GloVe(GlobalVectorsforWordRepresentation)算法分别确定出该校验对中的两个短串之间的匹配程度,将确定结果作为所需的GloVe特征,具体实现为现有技术。行为类特征可包括深度神经网络(DNN,DeepNeuralNetwork)特征等。可基于共同点击、共同购买等用户行为信息构建DNN模型。比如,可通过收集到的训练样本训练得到一个pairwise模型,针对每个校验对,可分别将该校验对中的信息输入pairwise模型,从而得到pairwise模型的输出结果,即所需的pairwise特征,pairwise特征能够体现校验对中的两个短串之间的匹配程度。在训练pairwise模型时,可将一组校验对以及该组校验对中的两个校验对孰优孰劣的判定结果作为一个训练样本。仍以query和bidword为例,假设用户输入的query为“鲜花”,触发出的bidword包括“鲜花速递”、“鲜花网”等,根据过往统计,点击“鲜花速递”对应的广告的用户明显多于点击“鲜花网”对应的广告的用户,那么,可将“鲜花-鲜花速递”和“鲜花-鲜花网”作为一组校验对,同时判定“鲜花-鲜花速递”优于“鲜花-鲜花网”。根据上述训练样本,可训练得到pairwise模型,该pairwise模型的作用是当后续向模型中输入一个校验对中的信息后,输出关于该校验对中的两个短串之间的匹配程度的判定结果。类似地,还可基于上述训练样本,训练得到一个clicksim模型,cli本文档来自技高网...

【技术保护点】
1.一种短串相关性校验方法,其特征在于,包括:获取第一短串;获取与所述第一短串相对应的第二短串;分别将获取到的每个第二短串与所述第一短串组成一个校验对;获取所述校验对的深层语义特征;根据所述深层语义特征,确定出所述校验对中的两个短串之间的相关性。

【技术特征摘要】
1.一种短串相关性校验方法,其特征在于,包括:获取第一短串;获取与所述第一短串相对应的第二短串;分别将获取到的每个第二短串与所述第一短串组成一个校验对;获取所述校验对的深层语义特征;根据所述深层语义特征,确定出所述校验对中的两个短串之间的相关性。2.根据权利要求1所述的方法,其特征在于,所述深层语义特征包括以下任一类特征或任意组合:行为类特征、语义类特征、IP类特征。3.根据权利要求1所述的方法,其特征在于,所述根据所述深层语义特征,确定出所述校验对中的两个短串之间的相关性包括:将所述深层语义特征输入迭代决策树GBDT模型;将所述GBDT模型的输出结果作为所述校验对中的两个短串之间的相关性确定结果。4.根据权利要求3所述的方法,其特征在于,所述将所述深层语义特征输入GBDT模型包括:当所述深层语义特征数大于一时,对所述深层语义特征进行预处理,包括:将符合组合要求的深层语义特征进行组合;将进行预处理后的深层语义特征输入所述GBDT模型。5.根据权利要求3或4所述的方法,其特征在于,该方法进一步包括:增大选定的区分力强的深层语义特征在所述GBDT模型的处理过程中的权重。6.根据权利要求1所述的方法,其特征在于,所述第一短串包括:查询词query;所述第二短串包括:拍卖词bidword。7.一种短串相关性校验装置,其特征在于,包括:获取模块以及处理模块;所述获取模块,用于获取第一短串,并获取与所述第一短串相对应的第二短串,将所...

【专利技术属性】
技术研发人员:王奕连义江李正琪
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1