数据预取方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:24410260 阅读:24 留言:0更新日期:2020-06-06 08:52
本申请公开了一种数据预取方法、装置、电子设备及计算机可读存储介质,涉及智能搜索领域。具体实现方案为:获取用户输入的查询前缀;基于预先训练的语言模型对所述查询前缀进行判别,得到所述查询前缀的困惑度;判断所述困惑度是否小于预设阈值;当所述困惑度小于所述预设阈值时,基于所述查询前缀发送预取请求。根据本申请实施例,可以将困惑度较高的预取请求直接过滤掉,从而可以提升预取的成功率。

Data prefetching method, device, electronic equipment and computer readable storage medium

【技术实现步骤摘要】
数据预取方法、装置、电子设备及计算机可读存储介质
本申请涉及计算机
,尤其涉及智能搜索

技术介绍
搜索预取功能是在用户真实点击搜索之前通过客户端发起的对于查询前缀的预取请求,可提前获取预取结果展现给用户,给用户更快的搜索速度体验,增加用户的惊喜感。目前,下发预取请求的方式主要为:基于对用户输入的查询前缀的补全匹配来下发预取请求。例如,在用户输入查询前缀“刘德”时,可将查询前缀“刘德”补全成“刘德华”后触发下发预取请求。由此,基于补全匹配下发预取请求的方式,往往导致在用户输入查询前缀的过程中发出大量的预取请求,但这部分预取成功率较低,对机器成本带来浪费的同时对于系统稳定性也会造成一定的影响。
技术实现思路
本申请实施例提供一种数据预取方法、装置、电子设备及计算机可读存储介质,以解决现有基于补全匹配下发预取请求的方式的成功率较低的问题。为了解决上述技术问题,本申请是这样实现的:第一方面,本申请实施例提供了一种数据预取方法,包括:获取用户输入的查询前缀;基于预先训练的语言模型对所述查询前缀进行判别,得到所述查询前缀的困惑度;判断所述困惑度是否小于预设阈值;当所述困惑度小于所述预设阈值时,基于所述查询前缀发送预取请求。这样,基于对查询前缀的困惑度的判别来发送预取请求,相比于目前基于补全匹配来发送预取请求,可以将困惑度较高的预取请求直接过滤掉,从而可以提升预取的成功率,并可进一步减少后端服务器因过多预取请求而带来的机器成本,同时也避免影响系统稳定性以及展现过多预取结果给用户带来视觉体验上的干扰,提升用户体验。可选的,当所述查询前缀中包括特殊字符时,所述方法还包括:获取所述查询前缀的困惑度修正因子;所述判断所述困惑度是否小于预设阈值,包括:利用所述困惑度修正因子对所述困惑度进行修正;判断修正后的困惑度是否小于所述预设阈值;所述当所述困惑度小于所述预设阈值时,基于所述查询前缀发送预取请求,包括:当所述修正后的困惑度小于所述预设阈值时,基于所述查询前缀发送所述预取请求。这样,借助此修正过程,可以减少特殊字符对相应查询前缀的困惑度产生的影响,从而进一步提升预取的成功率。可选的,所述获取所述查询前缀的困惑度修正因子,包括:采用如下公式,计算所述查询前缀的困惑度修正因子Re:其中,N表示所述查询前缀的句子长度,count(sw)表示所述查询前缀中包括的特殊字符的个数,f表示预设系数。这样,可以借助特殊字符的个数计算得到相应的困惑度修正因子,从而实现对查询前缀的困惑度的优化。可选的,所述基于预先训练的语言模型对所述查询前缀进行判别,得到所述查询前缀的困惑度,包括:对所述查询前缀进行切分,得到多个分词;分别将每个所述分词输入到预先训练的语义模型中,生成每个所述分词的词向量,并根据每个所述分词的词向量,确定所述查询前缀的词向量;将所述查询前缀的词向量输入到所述预先训练的语言模型中,得到所述查询前缀的困惑度。这样,借助预先训练的语义模型,可以生成查询前缀对应的带有更强中文语义理解的词向量,而基于该词向量判别查询前缀的困惑度,可以提高判别准确度。可选的,所述根据每个所述分词的词向量,确定所述查询前缀的词向量,包括:对每个所述分词的词向量进行拼接,得到所述查询前缀的词向量。可选的,所述基于所述查询前缀发送预取请求之后,所述方法还包括:接收服务器根据所述预取请求返回的所述查询前缀对应的预取结果。这样,可以在用户输入查询前缀的过程中,向用户展现获取的预取结果,给用户更快的搜索速度体验。第二方面,本申请实施例提供了一种数据预取装置,包括:第一获取模块,用于获取用户输入的查询前缀;判别模块,用于基于预先训练的语言模型对所述查询前缀进行判别,得到所述查询前缀的困惑度;判断模块,用于判断所述困惑度是否小于预设阈值;发送模块,用于当所述困惑度小于所述预设阈值时,基于所述查询前缀发送预取请求。可选的,所述装置还包括:第二获取模块,用于当所述查询前缀中包括特殊字符时,获取所述查询前缀的困惑度修正因子;所述判断模块包括:修正单元,用于利用所述困惑度修正因子对所述困惑度进行修正;判断单元,用于判断修正后的困惑度是否小于所述预设阈值;所述发送模块具体用于:当所述修正后的困惑度小于所述预设阈值时,基于所述查询前缀发送所述预取请求。可选的,所述第二获取模块具体用于:采用如下公式,计算所述查询前缀的困惑度修正因子Re:其中,N表示所述查询前缀的句子长度,count(sw)表示所述查询前缀中包括的特殊字符的个数,f表示预设系数。可选的,所述判别模块包括:切分单元,用于对所述查询前缀进行切分,得到多个分词;生成单元,用于分别将每个所述分词输入到预先训练的语义模型中,生成每个所述分词的词向量;确定单元,用于根据每个所述分词的词向量,确定所述查询前缀的词向量;判别单元,用于将所述查询前缀的词向量输入到所述预先训练的语言模型中,得到所述查询前缀的困惑度。可选的,所述确定单元具体用于:对每个所述分词的词向量进行拼接,得到所述查询前缀的词向量。可选的,所述装置还包括:接收模块,用于接收服务器根据所述预取请求返回的所述查询前缀对应的预取结果。第三方面,本申请实施例还提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的数据预取方法。第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的数据预取方法。上述申请中的一个实施例具有如下优点或有益效果:可以将困惑度较高的预取请求直接过滤掉,从而可以提升预取的成功率,并可进一步减少后端服务器因过多预取请求而带来的机器成本,同时也避免影响系统稳定性以及展现过多预取结果给用户带来视觉体验上的干扰,提升用户体验。因为采用了获取用户输入的查询前缀,基于预先训练的语言模型对所述查询前缀进行判别,得到所述查询前缀的困惑度,判断所述困惑度是否小于预设阈值,并当所述困惑度小于预设阈值时,基于所述查询前缀发送预取请求的技术手段,所以克服了现有基于补全匹配下发预取请求的方式的成功率较低的技术问题,进而达到提升预取成功率的技术效果。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请实施例的数据预取方法的流程图;图2是本申请实施例的困惑度判别过本文档来自技高网...

【技术保护点】
1.一种数据预取方法,其特征在于,包括:/n获取用户输入的查询前缀;/n基于预先训练的语言模型对所述查询前缀进行判别,得到所述查询前缀的困惑度;/n判断所述困惑度是否小于预设阈值;/n当所述困惑度小于所述预设阈值时,基于所述查询前缀发送预取请求。/n

【技术特征摘要】
1.一种数据预取方法,其特征在于,包括:
获取用户输入的查询前缀;
基于预先训练的语言模型对所述查询前缀进行判别,得到所述查询前缀的困惑度;
判断所述困惑度是否小于预设阈值;
当所述困惑度小于所述预设阈值时,基于所述查询前缀发送预取请求。


2.根据权利要求1所述的方法,其特征在于,当所述查询前缀中包括特殊字符时,所述方法还包括:
获取所述查询前缀的困惑度修正因子;
所述判断所述困惑度是否小于预设阈值,包括:
利用所述困惑度修正因子对所述困惑度进行修正;
判断修正后的困惑度是否小于所述预设阈值;
所述当所述困惑度小于所述预设阈值时,基于所述查询前缀发送预取请求,包括:
当所述修正后的困惑度小于所述预设阈值时,基于所述查询前缀发送所述预取请求。


3.根据权利要求2所述的方法,其特征在于,所述获取所述查询前缀的困惑度修正因子,包括:
采用如下公式,计算所述查询前缀的困惑度修正因子Re:



其中,N表示所述查询前缀的句子长度,count(sw)表示所述查询前缀中包括的特殊字符的个数,f表示预设系数。


4.根据权利要求1所述的方法,其特征在于,所述基于预先训练的语言模型对所述查询前缀进行判别,得到所述查询前缀的困惑度,包括:
对所述查询前缀进行切分,得到多个分词;
分别将每个所述分词输入到预先训练的语义模型中,生成每个所述分词的词向量,并根据每个所述分词的词向量,确定所述查询前缀的词向量;
将所述查询前缀的词向量输入到所述预先训练的语言模型中,得到所述查询前缀的困惑度。


5.根据权利要求4所述的方法,其特征在于,所述根据每个所述分词的词向量,确定所述查询前缀的词向量,包括:
对每个所述分词的词向量进行拼接,得到所述查询前缀的词向量。


6.根据权利要求1所述的方法,其特征在于,所述基于所述查询前缀发送预取请求之后,所述方法还包括:
接收服务器根据所述预取请求返回的所述查询前缀对应的预取结果。


7.一种数据预取装置,其特征在于,包括:
第一获取模块,用于获取用户输入的查询前缀;
判别模块,用于基于预先训练的语言模型对所述查询前缀进行判别,得到所述查询前缀的困惑度;<...

【专利技术属性】
技术研发人员:谢达郑志洵范彪
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1