基于用户习惯性输入错误的查询纠错方法和装置制造方法及图纸

技术编号:9033921 阅读:122 留言:0更新日期:2013-08-15 00:47
本发明专利技术实施例公开了一种基于用户习惯性输入错误的查询纠错方法和装置,涉及网络技术领域,能够准确的判断出用户的习惯性输入错误,有效引导用户输入正确的查询串。本发明专利技术实施例的基于用户习惯性输入错误的查询纠错方法,包括:从搜索引擎日志中选取待判定查询串,所述待判定查询串为使用频率大于预设的使用频率阈值的查询串;从搜索引擎日志中搜索与所述待判定查询串相似的比对查询串,并将每个所述待判定查询串与其相应的比对查询串绑定为一个查询串组;按照预设的过滤规则过滤所述查询串组;将过滤后的查询串组与标准词库中的词语进行对比,从所述待判定查询串与比对查询串中选择出正确的查询串。

【技术实现步骤摘要】

本专利技术涉及网络
,尤其涉及一种基于用户习惯性输入错误的查询纠错方法和装置
技术介绍
在使用搜索引擎进行搜索的过程中,用户所输入的词语等内容,有可能含有错别字等错误的内容。据统计,有10% 15%的用户输入的原始查询是含有错误的,而其中有一些错误很有可能跟其相应的同音形式混淆,用户自己也很难判断是否正确,例如:“登录网站”和“登陆网站”,那么“登录网站”这样的查询串就构成了一个用户的习惯性输入错误。对于一些明显的词语错误,如“平果电脑”和“苹果电脑”,搜索引擎可以很容易的判断出用户输入有误,但对于一些不易识别的词语错误,如,“登录网站”和“登陆网站”,搜索引擎就不能准确的判断出用户是否输入正确。因此,如何准确的判断出用户的习惯性输入错误并给以正确的输入提示,成为搜索引擎急需解决的一个问题。
技术实现思路
本专利技术的实施例所要解决的技术问题在于提供一种基于用户习惯性输入错误的查询纠错方法和装置,能够准确的判断出用户的习惯性输入错误,从而提高搜索准确度。为解决上述技术 问题,本专利技术的实施例采用如下技术方案:一种基于用户习惯性输入错误的查询纠错方法,包括:从搜索引擎日志中选取待判定查询串,所述待判定查询串为使用频率大于预设的使用频率阈值的查询串;从搜索引擎日志中搜索与所述待判定查询串相似的比对查询串,并将每个所述待判定查询串与其相应的比对查询串绑定为一个查询串组;按照预设的过滤规则过滤所述查询串组;将过滤后的查询串组与标准词库中的词语进行对比,从所述待判定查询串与比对查询串中选择出正确的查询串。一种基于用户习惯性输入错误的查询纠错装置,包括:选取模块,用于从搜索引擎日志中选取待判定查询串,所述待判定查询串为使用频率大于预设的使用频率阈值的查询串;查询串组建立模块,用于从搜索引擎日志中搜索与所述待判定查询串相似的比对查询串,并将每个所述待判定查询串与其相应的比对查询串绑定为一个查询串组;过滤模块,用于按照预设的过滤规则过滤所述查询串组;判别模块,用于将过滤后的查询串组与标准词库中的词语进行对比,从所述待判定查询串与比对查询串中选择出正确的查询串。本实施例的基于用户习惯性输入错误的查询纠错方法和装置,通过设定使用频率阈值、过滤等步骤筛选用户习惯性输入错误的查询串,再通过将过滤后的查询串组与标准词库中的词语进行对比,得到正确的查询串,当用户再次输入错误的形式的查询串时,搜索引擎提示给用户正确的形式,从而有效引导用户搜索到想要得到的结果,提高用户的搜索满意程度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中基于用户习惯性输入错误的查询纠错方法的流程示意图;图2为本专利技术实施例中基于用户习惯性输入错误的查询纠错的示意图。具体实施例方式本专利技术实施例提供一种基于用户习惯性输入错误的查询纠错方法和装置,能够有效引导用户输入正确的查询串,提高用户的搜索满意程度。下面结合附图对本专利技术实施例做详细描述。实施例一本实施例提供一种基于用户习惯性输入错误的查询纠错方法,如图1所示,该方法包括: 步骤101、从搜索引擎日志中选取待判定查询串,所述待判定查询串为使用频率大于预设的使用频率阈值的查询串。搜索引擎日志是指用户向搜索引擎输入的查询串的记录。本专利技术的专利技术主要针对用户习惯性输入错误,即用户在搜索过程中经常出现的输入错误。因此本专利技术预设了使用频率阈值,当所选取的待判定查询串的使用频率大于预设的使用频率阈值时,该查询串才会成为本专利技术纠错的对象。此外,设置使用频率阈值还可以防止因用户的偶然输入错误带来不必要的工作量。步骤102、从搜索引擎日志中搜索与所述待判定查询串相似的比对查询串,并将每个所述待判定查询串与其相应的比对查询串绑定为一个查询串组。在选择好待判定查询串后,再从搜索引擎日志中搜索与待判定查询串相似的比对查询串,具体的,相似的比对查询串可以是具有与所述待判定查询串相同的注音结果的查询串,也具有与所述待判定查询串相同的注音结果和声调的查询串,此外,也还可以是字形相似度大于预设值的查询串。然后将每个待判定查询串与其相应的比对查询串绑定为一个查询串组。下表为从搜索引擎日志中选取的部分待判定查询串:表1:权利要求1.一种基于用户习惯性输入错误的查询纠错方法,其特征在于,包括: 从搜索引擎日志中选取待判定查询串,所述待判定查询串为使用频率大于预设的使用频率阈值的查询串; 从搜索引擎日志中搜索与所述待判定查询串相似的比对查询串,并将每个所述待判定查询串与其相应的比对查询串绑定为一个查询串组; 按照预设的过滤规则过滤所述查询串组; 将过滤后的查询串组与标准词库中的词语进行对比,从所述待判定查询串与比对查询串中选择出正确的查询串。2.根据权利要求1所述的基于用户习惯性输入错误的查询纠错方法,其特征在于,所述预设的过滤规则,包括: 判断查询串组中的查询串是否为人名或者地名,若所述查询串组中存在一个为人名或者地名的查询串,则过滤掉该查询串组。3.根据权利要求1所述的基于用户习惯性输入错误的查询纠错方法,其特征在于,所述预设的过滤规则,包括: 判断查询串组被其它查询串组所包含的次数是否小于预设的数量阈值,若小于预设的数量阈值,则过滤掉该查询串组。4.根据权利要求1所述的基于用户习惯性输入错误的查询纠错方法,其特征在于,所述相似的比对查询串包括字形相似度大于预设值的查询串。5.根据权利要求1所述的基于用户习惯性输入错误的查询纠错方法,其特征在于,所述相似的比对查询串包括具有与所述待判定查询串相同的注音结果的查询串。6.一种基于用户习惯性输入错误的查询纠错装置,其特征在于,包括: 选取模块,用于从搜索引擎日志中选取待判定查询串,所述待判定查询串为使用频率大于预设的使用频率阈值的查询串; 查询串组建立模块,用于从搜索引擎日志中搜索与所述待判定查询串相似的比对查询串,并将每个所述待判定查询串与其相应的比对查询串绑定为一个查询串组; 过滤模块,用于按照预设的过滤规则过滤所述查询串组; 判别模块,用于将过滤后的查询串组与标准词库中的词语进行对比,从所述待判定查询串与比对查询串中选择出正确的查询串。7.根据权利要求6所述的基于用户习惯性输入错误的查询纠错装置,其特征在于,所述预设的过滤规则,包括: 判断查询串组中的查询串是否为人名或者地名,若所述查询串组中存在一个为人名或者地名的查询串,则过滤掉该查询串组。8.根据权利要求6所述的基于用户习惯性输入错误的查询纠错装置,其特征在于,所述预设的过滤规则,包括: 判断查询串组被其它查询串组所包含的次数是否小于预设的数量阈值,若小于预设的数量阈值,则过滤掉该查询串组。9.根据权利要求6所述的基于用户习惯性输入错误的查询纠错装置,其特征在于,所述相似的比对查询串包括字形相似度大于预设值的查询串。10.根据权利要求6所述的基于用户习惯性输入错误的查询纠错装置,其特征在于,所述相似的比对查询 串包括具有与所述待判定查询串相同的注音结果的查询串。全文摘要本专利技术实施例公开本文档来自技高网...

【技术保护点】
一种基于用户习惯性输入错误的查询纠错方法,其特征在于,包括:从搜索引擎日志中选取待判定查询串,所述待判定查询串为使用频率大于预设的使用频率阈值的查询串;从搜索引擎日志中搜索与所述待判定查询串相似的比对查询串,并将每个所述待判定查询串与其相应的比对查询串绑定为一个查询串组;按照预设的过滤规则过滤所述查询串组;将过滤后的查询串组与标准词库中的词语进行对比,从所述待判定查询串与比对查询串中选择出正确的查询串。

【技术特征摘要】

【专利技术属性】
技术研发人员:李超宋国龙
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1