The invention discloses a short string correlation checking method and a device, which include: acquiring the first short string; acquiring the second short string corresponding to the first short string; forming a checking pair of each second short string and the first short string respectively; acquiring the deep semantic features of the checking; and determining the deep semantic features according to the deep semantic features. The correlation between two short strings in the check pair is given. Applying the scheme of the invention can improve the veracity of the verification result and so on.
【技术实现步骤摘要】
短串相关性校验方法和装置
本专利技术涉及网络技术,特别涉及短串相关性校验方法和装置。
技术介绍
在很多场景中,都会涉及到短串相关性校验的问题,短串,通常是指比较短的字符串,如长度小于预定阈值的字符串。比如,在广告触发系统中,当用户输入查询词(query)后,会触发出一批拍卖词(bidword),需要分别确定出用户输入的query与触发出的各bidword之间的相关性,进而将相关性较高的bidword对应的广告展现给用户。短串相关性校验,即指对两个短串的相关性进行评估、进行打分等。现有技术中,主要是从文本字面相似度上来对两个短串的相关性进行校验,校验结果的准确性较差。
技术实现思路
有鉴于此,本专利技术提供了短串相关性校验方法和装置,能够提高校验结果的准确性。具体技术方案如下:一种短串相关性校验方法,包括:获取第一短串;获取与所述第一短串相对应的第二短串;分别将获取到的每个第二短串与所述第一短串组成一个校验对;获取所述校验对的深层语义特征;根据所述深层语义特征,确定出所述校验对中的两个短串之间的相关性。根据本专利技术一优选实施例,所述深层语义特征包括以下任一类特征或任意组合:行为类特征、语义类特征、IP类特征。根据本专利技术一优选实施例,所述根据所述深层语义特征,确定出所述校验对中的两个短串之间的相关性包括:将所述深层语义特征输入迭代决策树GBDT模型;将所述GBDT模型的输出结果作为所述校验对中的两个短串之间的相关性确定结果。根据本专利技术一优选实施例,所述将所述深层语义特征输入GBDT模型包括:当所述深层语义特征数大于一时,对所述深层语义特征进行 ...
【技术保护点】
1.一种短串相关性校验方法,其特征在于,包括:获取第一短串;获取与所述第一短串相对应的第二短串;分别将获取到的每个第二短串与所述第一短串组成一个校验对;获取所述校验对的深层语义特征;根据所述深层语义特征,确定出所述校验对中的两个短串之间的相关性。
【技术特征摘要】
1.一种短串相关性校验方法,其特征在于,包括:获取第一短串;获取与所述第一短串相对应的第二短串;分别将获取到的每个第二短串与所述第一短串组成一个校验对;获取所述校验对的深层语义特征;根据所述深层语义特征,确定出所述校验对中的两个短串之间的相关性。2.根据权利要求1所述的方法,其特征在于,所述深层语义特征包括以下任一类特征或任意组合:行为类特征、语义类特征、IP类特征。3.根据权利要求1所述的方法,其特征在于,所述根据所述深层语义特征,确定出所述校验对中的两个短串之间的相关性包括:将所述深层语义特征输入迭代决策树GBDT模型;将所述GBDT模型的输出结果作为所述校验对中的两个短串之间的相关性确定结果。4.根据权利要求3所述的方法,其特征在于,所述将所述深层语义特征输入GBDT模型包括:当所述深层语义特征数大于一时,对所述深层语义特征进行预处理,包括:将符合组合要求的深层语义特征进行组合;将进行预处理后的深层语义特征输入所述GBDT模型。5.根据权利要求3或4所述的方法,其特征在于,该方法进一步包括:增大选定的区分力强的深层语义特征在所述GBDT模型的处理过程中的权重。6.根据权利要求1所述的方法,其特征在于,所述第一短串包括:查询词query;所述第二短串包括:拍卖词bidword。7.一种短串相关性校验装置,其特征在于,包括:获取模块以及处理模块;所述获取模块,用于获取第一短串,并获取与所述第一短串相对应的第二短串,将所...
【专利技术属性】
技术研发人员:王奕,连义江,李正琪,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。