一种数据处理方法、装置及存储介质制造方法及图纸

技术编号:20160574 阅读:36 留言:0更新日期:2019-01-19 00:13
本申请提供了一种数据处理方法,包括:获取包含至少两个检索词的检索串;生成检索串对应的N层节点树,节点树的根节点包含检索串,节点树的任一层的子节点包含所述检索串中的至少两个检索词,并且子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集;针对检索串中相邻的第一检索词和第二检索词,在节点树的根节点和各层子节点中选择目标节点,目标节点中至少包括第一检索词和第二检索词;以及从下至上依次根据下一层目标节点中第一检索词与第二检索词的紧密度,计算上一层目标节点中第一检索词与第二检索词的紧密度,直到得到在根节点中第一检索词与第二检索词的第一紧密度。

【技术实现步骤摘要】
一种数据处理方法、装置及存储介质
本申请涉及信息
,尤其涉及一种数据处理方法、装置及存储介质。
技术介绍
随着互联网对人们生活的深入影响,用户越来越依赖于网络的搜索功能,当用户输入一个检索串(query)时,该检索串中两个词的紧密度对搜索结果的排序有较大的参考价值。此外,检索串中紧邻的两个词的紧密度对检索串分析也有很大影响,比如在同义词替换中,如果两个紧邻词的紧密度比较高,对其中单个词进行同义词替换会造成较大的语义漂移风险。
技术实现思路
本申请实施例提供了一种数据处理方法,包括:获取包含至少两个检索词的检索串;生成所述检索串对应的N层节点树,所述节点树的根节点包含所述检索串,所述节点树的任一层的子节点包含所述检索串中的至少两个检索词,并且所述子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集,N为正整数;针对所述检索串中相邻的第一检索词和第二检索词,在所述节点树的根节点和各层子节点中选择目标节点,所述目标节点中至少包括所述第一检索词和所述第二检索词;以及从下至上依次根据下一层目标节点中所述第一检索词与所述第二检索词的紧密度,计算上一层目标节点中所述第一检索词与所述本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:获取包含至少两个检索词的检索串;生成所述检索串对应的N层节点树,所述节点树的根节点包含所述检索串,所述节点树的任一层的子节点包含所述检索串中的至少两个检索词,并且所述子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集,N为正整数;针对所述检索串中相邻的第一检索词和第二检索词,在所述节点树的根节点和各层子节点中选择目标节点,所述目标节点中至少包括所述第一检索词和所述第二检索词;以及从下至上依次根据下一层目标节点中所述第一检索词与所述第二检索词的紧密度,计算上一层目标节点中所述第一检索词与所述第二检索词的紧密度,直到得到在所述根节点中所述第一...

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取包含至少两个检索词的检索串;生成所述检索串对应的N层节点树,所述节点树的根节点包含所述检索串,所述节点树的任一层的子节点包含所述检索串中的至少两个检索词,并且所述子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集,N为正整数;针对所述检索串中相邻的第一检索词和第二检索词,在所述节点树的根节点和各层子节点中选择目标节点,所述目标节点中至少包括所述第一检索词和所述第二检索词;以及从下至上依次根据下一层目标节点中所述第一检索词与所述第二检索词的紧密度,计算上一层目标节点中所述第一检索词与所述第二检索词的紧密度,直到得到在所述根节点中所述第一检索词与所述第二检索词的第一紧密度。2.根据权利要求1所述的方法,其中,进一步包括:获取所述第一检索词与所述第二检索词的第一共现数据和第二共现数据;根据所述第一共现数据,得到所述第一检索词与所述第二检索词的第二紧密度;根据所述第二共现数据,得到所述第一检索词与所述第二检索词的第三紧密度;对所述第一紧密度、所述第二紧密度以及第三紧密度进行加权求和,并将求和结果作为所述第一检索词与所述第二检索词的目标紧密度。3.根据权利要求1所述的方法,其中,从下至上依次根据下一层目标节点中所述第一检索词与所述第二检索词的紧密度,计算上一层目标节点中所述第一检索词与所述第二检索词的紧密度,包括:执行如下步骤:A,针对第i-1层的任一目标节点u,确定以该目标节点u为父节点的、第i层中的目标节点v1~vn;n为正整数B,根据第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度,计算第i-1层的目标节点u中所述第一检索词与所述第二检索词的紧密度;其中,最下层的目标节点中所述第一检索词与所述第二检索词的紧密度为初始紧密度;C,i=i-1;判断i是否为0,如果不是,返回A。4.根据权利要求2所述的方法,其中,所述初始紧密度为根据所述第一共现数据或所述第二共现数据计算得到。5.根据权利要求3所述的方法,其中,所述根据第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度,计算第i-1层的目标节点u中所述第一检索词与所述第二检索词的紧密度,包括:根据所述第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度、以及以下参数中的至少一个,计算所述第i-1层的目标节点u中,所述第一检索词与所述第二检索词的紧密度:第i层的各个所述目标节点v1~vn的顺序指示参数,所述顺序指示参数用于指示所述第一检索词与所述第二检索词在所述第i层的各个目标节点v1~vn中的顺序;第i层各个所述目标节点v1~vn的语义偏离惩罚参数,所述语义偏离惩罚参数用于代表所述第i层的各个目标节点v1~vn与所述第i-1层的目标节点u中包含的检索词偏离程度;第i层的各个所述目标节点v1~vn的节点权重;第i层各个所述目标节点v1~vn的位置偏移惩罚参数,所述位置偏移惩罚参数用于代表所述第i层的目标节点v1~vn中第一检索词和第二检索词之间的位置偏移程度。6.根据权利要求5所述的方法,其中,第i-1层的目标节点u中所述第一检索词a与所述第二检索词e的紧密度Tu(a,e)表示如下:其中,vj为位于第i层的各个目标节点v1~vn中所述目标节点u的子节点,j等于1至n,n为包括第一检索词a和第二检索词e、所述目标节点u的子节点的个数;为目标节点vj中所述第一检索词a与所述第二检索词e的紧密度;所述为第i层的目标节点vj的顺序指示参数,用于指示所述第一检索词a与所述第二检索词e在所述第i层的目标节点vj中的顺序...

【专利技术属性】
技术研发人员:谢润泉连凤宗
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1