一种纠错对自动生成方法及系统技术方案

技术编号:8300820 阅读:182 留言:0更新日期:2013-02-07 04:17
本发明专利技术适用于计算机技术领域,提供了一种纠错对自动生成方法及系统,所述方法包括下述步骤:获取存储的预设时间长度内用户输入的相邻搜索词;计算所述相邻搜索词为纠错对的置信度;当所述置信度大于第一阈值时,将所述相邻搜索词设置为候选纠错对;当所述候选纠错对符合所述预设条件时,确定所述相邻搜索词为纠错对。本发明专利技术实现了纠错对的自动生成,解决了对于尚未存在的搜索词难以提供正确的、更为准确的搜索词的问题,提高了用户搜索信息时搜索词的准确度,缩短了获取信息的时间,进而提高了用户的搜索效率。

【技术实现步骤摘要】

本专利技术属于计算机
,尤其涉及一种纠错对自动生成方法及系统
技术介绍
随着互联网的普及,互联网的信息资源成指数增长,搜索引擎为用户提供了一个从海量的信息资源中获取需要的资源的重要途径,然而,对于大多数用户来说,在进行初始搜索时,输入的搜索词是比较模糊的,有时搜索词还存在一定的错误,用户无法用较为准确的搜索词来搜索自己所需要的信息,只有通过不断地筛选和提炼才可能获得最终的搜索词,现有搜索引擎在检测到用户的搜索词时,可以根据用户输入的搜索词向用户提供纠正后的搜索词,用户输入的搜索词(模糊的、不正确的搜索词)和纠正后的搜索词构成了一个纠错对,然而该纠错对主要是依靠在已存储的搜索记录、日志等中进行查询匹配后向用 户反馈的,对于尚未存在的搜索词难以提供正确的、更为准确的搜索词,导致信息搜索时间长,信息查准确率低,搜索效率低下。
技术实现思路
本专利技术实施例的目的在于提供一种纠错对自动生成方法及系统,旨在解决由于现有搜索引擎难以向用户提供更为准确的搜索词,导致信息查准确率低,搜索效率低下的问题。本专利技术实施例是这样实现的,一种纠错对自动生成方法,所述方法包括下述步骤获取预设时间内用户输入的相邻搜索词;计算所述相邻搜索词为纠错对的置信度;当所述置信度大于第一阈值时,将所述相邻搜索词设置为候选纠错对;当所述候选纠错对符合所述预设条件时,确定所述相邻搜索词为纠错对。本专利技术实施例的另一目的在于提供一种搜索候选词自动生成系统,所述系统包括搜索词获取单元,用于获取存储的预设时间长度内用户输入的相邻搜索词;置信度计算单元,用于计算所述相邻搜索词为纠错对的置信度;候选纠错对设置单元,用于当所述置信度大于第一阈值时,将所述相邻搜索词设置为候选纠错对;以及纠错对确定单元,当所述候选纠错对符合所述预设条件时,确定所述相邻搜索词为纠错对。本专利技术实施例通过获取存储的预设时间长度内用户输入的相邻搜索词,计算相邻搜索词为纠错对的置信度,当置信度大于预设的第一阈值时,将相邻搜索词设置为候选纠错对,根据预设条件对候选纠错对进行筛选,当候选纠错对符合预设条件时,确定相邻搜索词为纠错对,从而实现了纠错对的自动生成,解决了对于尚未存在的搜索词难以提供正确的、更为准确的搜索词的问题,提高了用户搜索信息时搜索词的准确度,缩短了获取信息的时间,进而提高了用户的搜索效率。附图说明图I是本专利技术第一实施例提供的纠错对自动生成方法的实现流程图;图2是本专利技术第二实施例提供的纠错对自动生成方法的实现流程图;图3是本专利技术第三实施例提供的纠错对自动生成方法的实现流程图;图4是本专利技术第四实施例提供的纠错对自动生成方法的实现流程图;图5是本专利技术第五实施例提供的纠错对自动生成系统的结构图;图6是本专利技术第六实施例提供的纠错对自动生成系统的结构图;·图7是本专利技术第七实施例提供的纠错对自动生成系统的结构图;图8是本专利技术第八实施例提供的纠错对自动生成系统的结构图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例通过预设时间长度内用户输入的相邻搜索词为纠错对的置信度,当置信度大于预设的第一阈值时,将相邻搜索词设置为候选纠错对,并根据候选纠错对中搜索词的字形相似度、拼音相似度以及该搜索词被点击且其对应的搜索结果被查看确定候选纠错对是否为最终的纠错对,实现了纠错对的自动生成,并提高了纠错对的准确率,为用户提供了更加正确的、准确的搜索词,提高了用户搜索信息时搜索词的准确度,缩短了获取信息的时间,进而提高了搜索效率。以下结合具体实施例对本专利技术的具体实现进行详细描述实施例一:搜索引擎用户会话(session)是指同一用户为了同一个搜索目的而产生的一系列查询请求,当用户输入搜索词时,用户输入的错误形式以及其相对应的正确形式的搜索词,形成一个纠错对。例如,用户在搜索引擎的输入框中输入“漂亮的好有印象”,其实际需要搜索的是“漂亮的好友印象”,那么“漂亮的好有印象”和“漂亮的好友印象”就构成了一个纠错对。本专利技术实施例在一个搜索引擎用户会话中,根据用户先后输入的搜索词获取候选纠错对,通过特征针对纠错对进行筛选,最终得到纠错对。图I示出了本专利技术第一实施例提供的纠错对自动生成方法的实现流程,详述如下在步骤SlOl中,获取存储的预设时间长度内用户输入的相邻搜索词。在本专利技术实施例中,搜索引擎用户会话以一个时间窗口(时间长度)来定义,位于预设时间长度内的搜索被定义为搜索引擎用户会话,该时间长度可以根据用户的搜索偏好进行设置,例如,有的用户发现错误的搜索词后会立即进行修改进行再次搜索,时间长度则可以设置短一些,有的用户发现错误的搜索词后则浏览一下搜索结果,则可以设置一个较长的时间长度,较优地,将该时间长度设置为120秒。具体地,存储的预设时间长度内用户输入的相邻搜索词的获取可以从搜索引擎的查询日志中获取。在步骤S102中,计算相邻搜索词为纠错对的置信度。置信度可以称为可靠度、置信水平或置信系数,是指特定个体对待特定命题真实性相信的程度,在本专利技术实施例中,相邻搜索词中后一时间点的搜索词为前一时间点的搜索词的纠错后的搜索词(即两者构成一个纠错对)的置信系数,可以根据用户对后一时间点的搜索词的搜索结果的点击数据进行置信度的计算,也可以将影响置信度的因素作为置信度计算的因子,例如,保存的用户偏好信息等,较优地,通过将相邻搜索词中前一时间点的搜索词和后一时间点的搜索词分别设为第一搜索词和第二搜索词,分别获取第一搜索词和第二搜索词被点击且其搜索结果被查看的次数,根据获取的第一搜索词和第二搜索词被点击且其搜索结果被查看的次数,计算第一搜索词和第二搜索词为纠错对的置信度,具体地,通过公式CredU(q, qc) = -TimeWelght{q,qc)^PV{qc) + l)_ E0033]^ TimeWeight(q, qct) x (PV(q) +1) χ Count{q*) /=1计算纠错对(q,qc)的置信度,其中q为相邻搜索词中前一时间点的搜索词,qc为后一时间点的搜索词,PV(qc)为搜索词qc被点击且其搜索结果被查看的次数,PV(q)为搜索词q被点击且其搜索结果被查看的次数,Count (q,*)为q被纠错为非搜索词qc的次数,TimeWeight(q,qc) = "+舰咖舰⑷为纠错对(d,qc)的时间紧密度,其中λ为预设的常数,t为预设时间长度,较优地,将该时间长度设置为120秒,time(qc)为用户输入qc的时间点,time(q)为用户输入q的时间点,η为时间t内q被纠错为搜索词qCi形成的纠错对的个数。在步骤S103中,当置信度大于第一阈值时,将相邻搜索词设置为候选纠错对。在本专利技术实施例,预先设置一个置信度的阈值(第一阈值),阈值的设置可以根据系统对纠错对准确度的要求进行设置,例如,当系统对纠错对的准确度要求较高时,则相应地将阈值设置为一较大值,当系统对纠错对的准确度要求较低时,则相应地将阈值设置为一较小值。当置信度大于预设的阈值时,则该相邻搜索词可能可构成一纠错对,可将该相邻搜索词设置为候选纠错对。在步骤S104中,当候选纠错对符合预设条件时,确定相邻搜索本文档来自技高网...

【技术保护点】
一种纠错对自动生成方法,其特征在于,所述方法包括下述步骤:获取预设时间内用户输入的相邻搜索词;计算所述相邻搜索词为纠错对的置信度;当所述置信度大于第一阈值时,将所述相邻搜索词设置为候选纠错对;当所述候选纠错对符合预设条件时,确定所述相邻搜索词为纠错对。

【技术特征摘要】

【专利技术属性】
技术研发人员:李超田里宋国龙贾自艳
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1