数据预取方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号：24410260 阅读：24 留言：0更新日期：2020-06-06 08:52

本申请公开了一种数据预取方法、装置、电子设备及计算机可读存储介质，涉及智能搜索领域。具体实现方案为：获取用户输入的查询前缀；基于预先训练的语言模型对所述查询前缀进行判别，得到所述查询前缀的困惑度；判断所述困惑度是否小于预设阈值；当所述困惑度小于所述预设阈值时，基于所述查询前缀发送预取请求。根据本申请实施例，可以将困惑度较高的预取请求直接过滤掉，从而可以提升预取的成功率。

Data prefetching method, device, electronic equipment and computer readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
数据预取方法、装置、电子设备及计算机可读存储介质
本申请涉及计算机
，尤其涉及智能搜索

技术介绍
搜索预取功能是在用户真实点击搜索之前通过客户端发起的对于查询前缀的预取请求，可提前获取预取结果展现给用户，给用户更快的搜索速度体验，增加用户的惊喜感。目前，下发预取请求的方式主要为：基于对用户输入的查询前缀的补全匹配来下发预取请求。例如，在用户输入查询前缀“刘德”时，可将查询前缀“刘德”补全成“刘德华”后触发下发预取请求。由此，基于补全匹配下发预取请求的方式，往往导致在用户输入查询前缀的过程中发出大量的预取请求，但这部分预取成功率较低，对机器成本带来浪费的同时对于系统稳定性也会造成一定的影响。
技术实现思路
本申请实施例提供一种数据预取方法、装置、电子设备及计算机可读存储介质，以解决现有基于补全匹配下发预取请求的方式的成功率较低的问题。为了解决上述技术问题，本申请是这样实现的：第一方面，本申请实施例提供了一种数据预取方法，包括：获取用户输入的查询前缀；基于预先训练的语言模型对所述查询前缀进行判别，得到所述查询前缀的困惑度；判断所述困惑度是否小于预设阈值；当所述困惑度小于所述预设阈值时，基于所述查询前缀发送预取请求。这样，基于对查询前缀的困惑度的判别来发送预取请求，相比于目前基于补全匹配来发送预取请求，可以将困惑度较高的预取请求直接过滤掉，从而可以提升预取的成功率，并可进一步减少后端服务器因过多预取请求而带来的机器成本，同时...

【技术保护点】
1.一种数据预取方法，其特征在于，包括：/n获取用户输入的查询前缀；/n基于预先训练的语言模型对所述查询前缀进行判别，得到所述查询前缀的困惑度；/n判断所述困惑度是否小于预设阈值；/n当所述困惑度小于所述预设阈值时，基于所述查询前缀发送预取请求。/n

【技术特征摘要】
1.一种数据预取方法，其特征在于，包括：
获取用户输入的查询前缀；
基于预先训练的语言模型对所述查询前缀进行判别，得到所述查询前缀的困惑度；
判断所述困惑度是否小于预设阈值；
当所述困惑度小于所述预设阈值时，基于所述查询前缀发送预取请求。

2.根据权利要求1所述的方法，其特征在于，当所述查询前缀中包括特殊字符时，所述方法还包括：
获取所述查询前缀的困惑度修正因子；
所述判断所述困惑度是否小于预设阈值，包括：
利用所述困惑度修正因子对所述困惑度进行修正；
判断修正后的困惑度是否小于所述预设阈值；
所述当所述困惑度小于所述预设阈值时，基于所述查询前缀发送预取请求，包括：
当所述修正后的困惑度小于所述预设阈值时，基于所述查询前缀发送所述预取请求。

3.根据权利要求2所述的方法，其特征在于，所述获取所述查询前缀的困惑度修正因子，包括：
采用如下公式，计算所述查询前缀的困惑度修正因子Re：

其中，N表示所述查询前缀的句子长度，count(sw)表示所述查询前缀中包括的特殊字符的个数，f表示预设系数。

4.根据权利要求1所述的方法，其特征在于，所述基于预先训练的语言模型对所述查询前缀进行判别，得到所述查询前缀的困惑度，包括：
对所述查询前缀进行切分，得到多个分词；
分别将每个所述分词输入到预先训练的语义模型中，生成每个所述分词的词向量，并根据每个所述分词的词向量，确定所述查询前缀的词向量；
将所述查询前缀的词向量输入到所述预先训练的语言模型中，得到所述查询前缀的困惑度。

5.根据权利要求4所述的方法，其特征在于，所述根据每个所述分词的词向量，确定所述查询前缀的词向量，包括：
对每个所述分词的词向量进行拼接，得到所述查询前缀的词向量。

6.根据权利要求1所述的方法，其特征在于，所述基于所述查询前缀发送预取请求之后，所述方法还包括：
接收服务器根据所述预取请求返回的所述查询前缀对应的预取结果。

7.一种数据预取装置，其特征在于，包括：
第一获取模块，用于获取用户输入的查询前缀；
判别模块，用于基于预先训练的语言模型对所述查询前缀进行判别，得到所述查询前缀的困惑度；<...

【专利技术属性】
技术研发人员：谢达，郑志洵，范彪，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人