识别噪声query的方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:34175718 阅读:42 留言:0更新日期:2022-07-17 11:52
本申请提供了一种识别噪声query的方法、装置、电子设备和可读存储介质,属于大数据技术领域。所述方法包括:获取目标query,其中,所述目标query用于指示搜索引擎接收到的查询词句;将所述目标query输入特征抽取模块,得到目标query的特征,其中,所述目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率,所述搜索文档生成概率用于指示所述目标query在搜索文档集中的稀疏性特征,所述搜索日志生成概率用于指示所述目标query在搜索日志集中的稀疏性特征;将所述目标query的特征输入目标识别模型,得到识别结果,其中,所述识别结果用于指示所述目标query是否为噪声query。本申请提高了目标query识别的覆盖率。本申请提高了目标query识别的覆盖率。本申请提高了目标query识别的覆盖率。

Method, device, electronic device and readable storage medium for identifying noise query

【技术实现步骤摘要】
识别噪声query的方法、装置、电子设备和可读存储介质


[0001]本申请涉及大数据领域,尤其涉及一种识别噪声query的方法、装置、电子设备和可读存储介质。

技术介绍

[0002]搜索引擎经常会收到用户输入的无意义的噪声查询词,即噪声query,噪声query通常是长尾低频query,不会命中搜索结果缓存,甚至会触发二级索引甚至多级索引,导致在线服务压力变大,服务器不稳定,因此服务器需要识别噪声query。
[0003]目前识别query识别主要依靠噪声模板完成,噪声模板包括query过长 (例如超过50个字符);query为重复单字(例如“我我我我我我”);query 为无单词拉丁字符(例如“asdfghjkl”),噪声模板特征可以表征query是否为噪声query。
[0004]但是仅依靠噪声模板只能是识别少数的部分噪声query,对于复杂的噪声query,仅利用噪声模板是无法有效识别噪声query的,这导致现有技术中噪声query的识别覆盖率低。

技术实现思路

[0005]为了解决上述技术问题或者至少部分本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种识别噪声query的方法,其特征在于,所述方法包括:获取目标query,其中,所述目标query用于指示搜索引擎接收到的查询词句;将所述目标query输入特征抽取模块,得到目标query的特征,其中,所述目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率,所述搜索文档生成概率用于指示所述目标query在搜索文档集中的稀疏性特征,所述搜索日志生成概率用于指示所述目标query在搜索日志集中的稀疏性特征;将所述目标query的特征输入目标识别模型,得到识别结果,其中,所述识别结果用于指示所述目标query是否为噪声query。2.根据权利要求1所述的方法,其特征在于,所述得到目标query的特征包括:根据预设的噪声模板获取目标query的模板匹配特征;根据所述目标query的每个目标N元组在所述搜索文档集中的文档频率特征,确定所述目标query的搜索文档生成概率,其中,所述目标N元组包括所述目标query的N个连续的词汇;根据所述目标query的每个目标N元组在预设时段内的搜索日志集中的日志频率特征,确定所述目标query的搜索日志生成概率。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标query在所述搜索文档集中的文档频率特征,确定所述目标query的搜索文档生成概率包括:将所述目标query拆分为多个目标N元组;根据预设的第一字典,确定每个目标N元组针对搜索文档集出现的文档频率特征,其中,所述第一字典中包含所述搜索文档集下第一N元组和第一频率特征之间的对应关系;根据所述目标query的每个文档频率特征,生成所述搜索文档生成概率。4.根据权利要求3所述的方法,其特征在于,根据预设的第一字典确定每个目标N元组针对搜索文档集出现的文档频率特征之前,所述方法还包括:获取多个第一N元组,其中,所述第一N元组是通过对所述搜索文档集中的样本搜索记录进行拆分得到的,所述第一N元组包括所述样本搜索记录的N个连续的词汇;获取包含所述第一N元组的样本文档数量;根据所述样本文档数量和所述搜索文档集中的搜索文档总数,确定所述第一N元组的第一频率特征;根据所述第一N元组和所述第一频率特征之间的对应关系,构建所述第一字典。5.根据权利要求2所述的方法,其特征在于,所述根据所述目标query在预设时段内的所述搜索日志集中的日志频率特征,确定所述目标query的搜索日志生成概率包括:将所述目标query拆分为多个目标N元组,其中,所述N元组中包含多个连续的词汇;根据预设的第二字典,确定每个目标N元组针对所述预设时段内的搜索日志集出现的日志频率特征,其中,所述第二字典中包含所述搜索日...

【专利技术属性】
技术研发人员:王亮
申请(专利权)人:北京爱奇艺科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1