搜索词的纠错方法和装置制造方法及图纸

技术编号:10651868 阅读:188 留言:0更新日期:2014-11-19 14:40
本发明专利技术公开了一种搜索词的纠错方法和装置。其中,搜索词的纠错方法包括:获取搜索词;拆分搜索词,得到多个第一搜索词片段;对第一搜索词片段进行纠错,得到多个第二搜索词片段;拼接多个第二搜索词片段,得到候选结果;判断候选结果是否是关联数据库中的关联数据;以及在判断出候选结果是关联数据库中的关联数据的情况下,确定候选结果为对搜索词进行纠错后的目标搜索词。通过本发明专利技术,解决了现有技术中搜索词的查询纠错方式因需要依赖大量用户记录而导致的覆盖率较低的问题,实现了可以不依赖用户记录对搜索词的纠错,进而达到了提高对搜索词进行纠错的覆盖率和独立性的效果。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种搜索词的纠错方法和装置。其中,搜索词的纠错方法包括:获取搜索词;拆分搜索词,得到多个第一搜索词片段;对第一搜索词片段进行纠错,得到多个第二搜索词片段;拼接多个第二搜索词片段,得到候选结果;判断候选结果是否是关联数据库中的关联数据;以及在判断出候选结果是关联数据库中的关联数据的情况下,确定候选结果为对搜索词进行纠错后的目标搜索词。通过本专利技术,解决了现有技术中搜索词的查询纠错方式因需要依赖大量用户记录而导致的覆盖率较低的问题,实现了可以不依赖用户记录对搜索词的纠错,进而达到了提高对搜索词进行纠错的覆盖率和独立性的效果。【专利说明】搜索词的纠错方法和装置
本专利技术涉及数据处理领域,具体而言,涉及一种搜索词的纠错方法和装置。
技术介绍
在用户利用搜索词进行相关搜索时,通常需要对用户输入的搜索词进行查询纠 错,现有技术中通常采用以下两种方式进行查询纠错: 1)基于用户会话(session)进行查询纠错,该查询纠错方式主要根据用户搜索的 会话日志(session log),挖掘出用户主动改写的候选纠错对,作为纠错后的搜索词。 2)基于大量用户记录的转义概率纠错:此种查询纠错方式筛选点击量比较高的 搜索日志作为正确的候选结果集,然后将搜索词(query)进行变换后,在候选集合中查找 最相近的作为正确的搜索词。 以上两种进行查询纠错的方式,在对搜索词进行纠错过程中,存在以下缺点: 1)需要依赖大量的用户记录,在没有大量用户记录做支持的情况下,将导致无法 对搜索词进行查询纠错; 2)对于用户意图较为发散,大而全的情况,无法将用户需求聚焦到一个领域。 针对相关技术中搜索词的查询纠错方式因需要依赖大量用户记录而导致的覆盖 率较低的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种搜索词的纠错方法和装置,以至少解决现有技术中搜索 词的查询纠错方式因需要依赖大量用户记录而导致的覆盖率较低的技术问题。 根据本专利技术实施例的一个方面,提供了一种搜索词的纠错方法。 根据本专利技术实施例的搜索词的纠错方法包括:获取搜索词,其中,所述搜索词为长 尾关键词;拆分所述搜索词,得到多个第一搜索词片段;对每个所述第一搜索词片段进行 纠错,得到纠错后的多个第二搜索词片段;拼接所述多个第二搜索词片段,得到候选结果; 判断所述候选结果是否是关联数据库中的关联数据,其中,所述关联数据库中存储有多组 纠错后的关联数据;以及在判断出所述候选结果是所述关联数据库中的关联数据的情况 下,确定所述候选结果为对所述搜索词进行纠错后的目标搜索词。 根据本专利技术实施例的另一方面,还提供了一种搜索词的纠错装置。 根据本专利技术实施例的搜索词的纠错装置包括:获取单元,用于获取搜索词,其中, 所述搜索词为长尾关键词;拆分单元,用于拆分所述搜索词,得到多个第一搜索词片段;纠 错单元,用于对每个所述第一搜索词片段进行纠错,得到纠错后的多个第二搜索词片段;拼 接单元,用于拼接所述多个第二搜索词片段,得到候选结果;判断单元,用于判断所述候选 结果是否是关联数据库中的关联数据,其中,所述关联数据库中存储有多组纠错后的关联 数据;以及确定单元,用于在判断出所述候选结果是所述关联数据库中的关联数据的情况 下,确定所述候选结果为对所述搜索词进行纠错后的目标搜索词。 在本专利技术实施例中,采用获取搜索词,其中,所述搜索词为长尾关键词;拆分所述 搜索词,得到多个第一搜索词片段;对每个所述第一搜索词片段进行纠错,得到纠错后的多 个第二搜索词片段;拼接所述多个第二搜索词片段,得到候选结果;判断所述候选结果是 否是关联数据库中的关联数据,其中,所述关联数据库中存储有多组纠错后的关联数据;以 及在判断出所述候选结果是所述关联数据库中的关联数据的情况下,确定所述候选结果为 对所述搜索词进行纠错后的目标搜索词。通过对用户输入的搜索词进行获取,将整串切分 成多个具有独立含义的多个片段,对每个片段进行纠错处理,再将每个片段的候选结果进 行拼接,最后使用数据之间的关系对拼接的候选结果进行验证,在验证成功的情况下,确定 拼接后的候选结果为对搜索词进行纠错后的目标搜索词,此种纠错方式不需要依赖用户记 录,在没有大量用户记录做支持的情况下,仍然可以通过查询关联数据库的方式对搜索词 进行查询纠错,解决了现有技术中搜索词的查询纠错方式因需要依赖大量用户记录而导致 的覆盖率较低的问题,实现了可以不依赖用户记录对搜索词的纠错,进而达到了提高对搜 索词进行纠错的覆盖率和独立性的效果。 【专利附图】【附图说明】 此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1是根据本专利技术实施例的搜索词的纠错方法的硬件环境图;; 图2是根据本专利技术实施例的搜索词的纠错方法的流程图; 图3是根据本专利技术又一实施例的搜索词的纠错方法的流程图; 图4是根据本专利技术实施例的搜索词的纠错装置的示意图;以及 图5是实施本专利技术实施例的搜索词的纠错方法的服务器的示意图。 【具体实施方式】 为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的 附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范 围。 需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语"第一"、"第 二"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用 的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或 描述的那些以外的顺序实施。此外,术语"包括"和"具有"以及他们的任何变形,意图在于 覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限 于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产 品或设备固有的其它步骤或单元。 对本专利技术实施例中所涉及的技术术语做如下解释: 查询纠错(Query Correct,简称QC):将用户输入的错误串修改为正确的表达方 式; 资源:业务中的实体名,例如在音乐中:歌曲,歌手,MV,专辑等;在视频中:影视 剧,导演,演员等; 关联:资源对之间通过某种连接存在关系,例如:歌手A演唱了歌曲B,则A和B之 间有关联;演员C在某个影视剧D中的演员,则C和D存在关联; 置信度:也称为可靠度,或置信水平、置信系数,即在抽样对总体参数作出估计时, 由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统 计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多 大,这个相应的概率称作置信度; 召回率"Recall Rate,也叫查全率)是检索出的相关文档数和文档库中所有的 相关文档数的比率,衡量的是检索系统的查全率;精度是检本文档来自技高网
...

【技术保护点】
一种搜索词的纠错方法,其特征在于,包括:获取搜索词;拆分所述搜索词,得到多个第一搜索词片段;对所述第一搜索词片段进行纠错,得到多个第二搜索词片段;拼接所述多个第二搜索词片段,得到候选结果;判断所述候选结果是否是关联数据库中的关联数据,其中,所述关联数据库中存储有多组纠错后的关联数据;以及在判断出所述候选结果是所述关联数据库中的关联数据的情况下,确定所述候选结果为对所述搜索词进行纠错后的目标搜索词。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨月奎张海龙肖立鹏黄玉兰刘冰王刚王迪
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1