搜索输入信息纠错方法、装置以及电子设备、存储介质制造方法及图纸

技术编号:31023123 阅读:36 留言:0更新日期:2021-11-30 03:17
本公开提供了一种搜索输入信息纠错方法、装置以及电子设备、存储介质,涉及计算机技术领域,其中的方法包括:对搜索输入信息进行检测处理,用以判断搜索输入信息是否需要纠错,检测处理包括确定搜索输入信息的理解困惑度信息;如果需要纠错,则对搜索输入信息进行纠错处理,用以生成与搜索输入信息相对应的输入纠错信息,进行相应的搜索处理,纠错处理包括:基于预设词典生成输入纠错信息和/或根据搜索输入信息的纠错得分信息生成输入纠错信息;本公开的方法、装置以及电子设备、存储介质,可以提高纠错准确性,减少模型训练所需的语料,在线预测阶段延时小,适用于商业查询等场景。适用于商业查询等场景。适用于商业查询等场景。

【技术实现步骤摘要】
搜索输入信息纠错方法、装置以及电子设备、存储介质


[0001]本公开涉及计算机
,尤其涉及一种搜索输入信息纠错方法、装置以及电子设备、存储介质。

技术介绍

[0002]目前,搜索引擎能够为用户提供搜索服务,提供用户需要的信息。在用户进行搜索时,搜索输入信息的错误可以被纠正,辅助用户进行正确的需求表达,减少不相关结果或零结果。对于搜索输入信息的常用的中文纠错方法主要针对连贯性较强的句子或篇章,纠错机制主要基于深度神经网络,例如基于seq2seq的encoder

decoder机制等。基于深度神经网络架构的纠错方法纠错准确性较低,并且所需的训练语料庞大,训练成本高昂,且在线纠错阶段延时比较严重,不适用于商业查询等场景。因此,需要一种新的搜索输入信息纠错技术方案。

技术实现思路

[0003]为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种搜索输入信息纠错方法、装置以及电子设备、存储介质。
[0004]根据本公开实施例的第一方面,提供一种搜索输入信息纠错方法,包括:对搜索输入信息进行检测处理本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种搜索输入信息纠错方法,其特征在于,包括:对搜索输入信息进行检测处理,用以判断所述搜索输入信息是否需要纠错,其中,所述检测处理包括:确定所述搜索输入信息的理解困惑度信息;如果是,则对所述搜索输入信息进行纠错处理,用以生成与所述搜索输入信息相对应的输入纠错信息,进行相应的搜索处理,其中,所述纠错处理包括:基于预设词典生成所述输入纠错信息和/或根据所述搜索输入信息的纠错得分信息生成所述输入纠错信息。2.如权利要求1所述的方法,其特征在于,所述对搜索输入信息进行检测处理,用以判断所述搜索输入信息是否需要纠错包括:获取与所述搜索输入信息相对应的第一理解困惑度值;如果所述第一理解困惑度值在预设范围内或小于所述预设范围的下限值,则不需要对所述搜索输入信息进行纠错处理;如果所述第一理解困惑度值大于所述预设范围的上限值,则需要对所述搜索输入信息进行纠错处理。3.如权利要求2所述的方法,其特征在于,所述对所述搜索输入信息进行纠错处理,用以生成与所述搜索输入信息相对应的输入纠错信息,进行相应的搜索处理包括:对所述搜索输入信息进行纠错处理,生成第一输入纠错信息;对所述第一输入纠错信息进行检测,获取与所述第一输入纠错信息相对应的第二理解困惑度值;如果所述第二理解困惑度值在所述预设范围内或小于所述预设范围的下限值,则使用所述第一输入纠错信息进行相应的搜索操作。4.如权利要求3所述的方法,其特征在于,所述对所述搜索输入信息进行纠错处理,生成第一输入纠错信息包括:对所述搜索输入信息进行分词处理,获取搜索词;使用所述搜索词在预设字典内进行查询,如果查询结果不为空,则确定所述搜索词为第一保留词;如果查询结果为空,则基于所述预设词典对所述搜索词进行纠错处理,生成第一替换词;基于所述第一保留词和/或所述第一替换词生成所述第一输入纠错信息。5.如权利要求4所述的方法,其特征在于,所述纠错处理包括:音似、同音或同形纠错处理;所述基于所述预设词典对所述搜索词进行纠错处理,生成替换词包括:确定需要进行纠错处理搜索词中的待纠错字的位置,根据所述位置获取搜索字;在所述预设词典内获取音似字表、同音字表或同形字表,基于所述音似字表、同音字表或同形字表获取与所述搜索字相对应的音似替换自、同音替换字或同形替换字;根据所述音似替换字、同音替换字或所述同形替换字以及搜索字,生成与所述搜索词相对应的候选替换词集合;根据所述候选替换词集合中的各个候选替换词的使用频率,在所述候选替换词集合中确定候选替换词,用以作为所述替换词。6.如权利要求3所述的方法,其特征在于,所述生成与所述搜索输入信息相对应的输入纠错信息,进行相应的搜索处理还包括:如果所述第二理解困惑度值大于所述预设范围的上限值,则获取与所述搜索输入信息
相对应的纠错后续信息集合;确定所述纠错后续信息集合中的各个输入候选信息与所述搜索输入信息之间的差异信息,根据所述差异信息计算各个输入候选信息的纠错得分;基于所述纠错得分选取输入候选信息,作为第二输入纠错信息,用以使用所述第二输入纠错信息进行相应的搜索操作。7.如权利要求6所述的方法,其特征在于,所述纠错后续信息集合包括:第一纠错后续集合和第二纠错后续集合;所述获取与所述搜索输入信息相对应的纠错后续信息集合包括:获取与所述搜索输入信息相对应的查询串信息,基于所述查询串在位置定位模块...

【专利技术属性】
技术研发人员:孙健
申请(专利权)人:北京金堤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1