确定搜索引擎中输入字符串正确性的方法及装置制造方法及图纸

技术编号:4936892 阅读:470 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种确定搜索引擎中输入字符串正确性的方法及装置,其中方法包括步骤:获取用户在搜索引擎中输入的输入字符串;利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含一一对应关系的查询词和该查询词的拼音串;判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含该集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。采用本发明专利技术,可解决现有方案判断不准确以及误判的问题。

【技术实现步骤摘要】

本专利技术涉及网络搜索? 1擎
,尤其涉及一种确定搜索引擎中输入 字符串正确性的方法及装置。
技术介绍
据统计,用户在搜索引擎中输入的输入字符串有8%包含错误,比如将图 书馆输入为图书管,此时,搜索引擎的查询纠错(Query Corrector, QC) 模块会提示用户您是不是要找图书馆。QC在运行时,首先是要判断输入 字符串是否包含错误,如果输入是正确的,则不纠错,否则,才会进行纠错 的步骤。搜索引擎用户主要使用拼音输入法敲入输入字符串,因此错误的输入主 要是同音错误,所以目前QC—般基于同音判断输入字符串的正确性。例如, 用户输入的是图书管,现有QC会在查询日志库里检索所有发音是 tushuguan的查询词及其查询次数,假设找到图书管的查询次数为m,图 书馆的查询次数为n,如果附/数值很小,则认为输入字符串图书管是错误 的,建议纠错为图书馆。上述这种方案的局限在于需要计算整串输入字符串的查询次数。如果用 户输入的是北京市国家图书馆借书证办理方法,很可能查询日志库里没有与 之发音相同的查询词,就无法获知原始输入字符串是否正确。再者,如果仅 凭其中的图书管就判断北京市国家图书馆借书证办理方法是错误的,那么 用户输入的图书管理系统就会被误判为错误。
技术实现思路
本专利技术提供一种确定搜索引擎中输入字符串正确性的方法及装置,以解5决现有方案无法对某些输入字符串进行判断或者误判的问题。为此,本专利技术实施例采用如下技术方案 一种确定搜索引擎中输入字符串正确性的方法,包括 获取用户在搜索引擎中输入的输入字符串;利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查 询,所述集合包含具有——对应关系的查询词和该查询词的拼音串;判断输入字符串的正确性如果所述集合中的拼音串与输入字符串的拼 音串或该拼音串的子串匹配,并且,所述输入字符串中不包含该集合中匹配 的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否 则,确定所述输入字符串正确。其中所述集合的预置过程为对查询日志中的查询词进行4并音标注;计算所述查询词及其对应拼音串在查询日志中出现的次数;计算所述查询词与其拼音串出现次数的比值;保留所述比值大于预置的比值阈值的查询词及其拼音串的——对应关 系,构成所述集合。如果确定所述输入字符串存在错误,该方法还包括以所述集合中的查询词替换输入字符串相应位置的汉字,并利用对原始 输入字符串和替换后的字符串进行分词比较,以验证所述输入字符串存在错 误的判断结果是否正确。其中,所述利用对原始输入字符串和替换后的字符串进行分词比较,以 验证所述输入字符串存在错误的结果是否正确的具体过程为对所述输入字符串进行分词,计算词的个数;对利用所述集合中的查询词替换后的字符串进行分词,计算替换后的字 符串中词的个数;6定所述输入字符串的正确性判断结果是错误的,并将判断结果修改为所述输 入串正确,否则,维持原来的判断结果。一种确定搜索引擎中输入字符串正确性的装置,包括获取单元,用于获取用户在搜索引擎中输入的输入字符串;查询单元,用于利用所述输入字符串以及该输入字符串的拼音串在预置 的集合中进行查询,所述集合包含具有——对应关系的查询词和该查询词的拼音串;判断单元,用于判断输入字符串的正确性如果所述集合中的拼音串与 输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包 含集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串 存在错误,否则,确定所述输入字符串正确。上述装置还包括用于建立所述集合的集合建立单元,所述集合建立单元 包括拼音标注子单元,用于对查询日志中的查询词进行拼音标注;次数计算子单元,用于计算所述查询词及其对应拼音串在查询日志中出 现的次数;比值计算子单元,用于计算所述查询词与其拼音串出现次数的比值;集合生成子单元,用于保留所述比值大于预置的比值阈值的查询词及其 拼音串的——对应关系,构成所述集合。上述装置还包括验证单元,用于在确定所述输入字符串存在错误时,以所述集合中的查 询词替换输入字符串相应位置的汉字,并利用对原始输入字符串和替换后的 字符串进行分词比较,以对判断结果进行验证。其中,所述验i正单元包括个数计算子单元,用于对所述输入字符串进行分词,并计算输入字符串中词的个数;替换词个数计算子单元,用于利用所述集合中查询词替换所述输入字符 串对应位置的汉字,计算替换字符串中词的个数;验证子单元,如果替换字符串中词的个数大于输入字符串中词的个数, 则确定所述输入字符串正确性判断结果是错误的,将判断结果修改为所述输 入字符串正确,否则,维持原来的判断结果。对于上述技术方案的技术效果分析如下通过本专利技术方案,可以在保证拼音与汉字——对应的基础上,可以找到 最短的串。例如,如果采用现有方案,可以把串感器纠错为传感器,但是如果用 户输入的是北京串感器价格,很可能查询日志中没有北京串感器价格的查 询次数,则采用现有方案无法实现纠错,它会认为chuanganqi会像 sanxiang—样,在不同的语境,对应不同的汉字,没有发现chuanganqi本 身已经足够确定对应的汉字传感器了。如果采用本专利技术,可以发现查询词和拼音--对应关系的集合,找到--对应的且最短的串chuanganqi-传感器,这样无论chuanganqi这个发音出现在怎样的语境中,如果对应的文本 中没有传感器,都可以完成纠错。再以图书管、图书管理系统以及北京市国家图书馆借书证办理方法 为例说明,如果在本专利技术集合中包括以下对应关系图书馆-tushuguan图书_ tushu管理-guanli系统_ xitong;j匕京市一beijingshi国家_ guojia借书证- jieshuzheng 办理-banli 方法- fangfa则可以判断输入字符串图书管错误,因为其对应的拼音tushuguan在 集合中对应的查询词图书馆不包含在输入字符串中。同时可判断输入字符串图书管理系统是正确的,因为输入字符串中各个 词的拼音对应于集合中的查询词都包含在输入字符串中,具体的,包括图书、 管理以及系统。并可判断输入字符串北京市国家图书馆借书证办理方法是正确的,因为 输入字符串中各个词的拼音对应于集合中的查询词都包含在输入字符串中。可见,采用本专利技术有效解决了现有方案存在的对某些输入字符串无法判 斯以及误判的问题。另外,本专利技术通过对输入字符串正确性结果的验证,可进一步提高判断 准确率,减少误判。附图说明图1为本专利技术确定搜索引擎中输入字符串正确性的方法流程图2为本专利技术确定搜索引擎中输入字符串正确性的方法实施例 一流程图3为本专利技术确定搜索引擎中输入字符串正确性的方法实施例二流程图4为本专利技术确定搜索引擎中输入字符串正确性的装置结构示意图5为图4中集合建立单元内部结构示意图6为图4中验证单元内部结构示意图。具体实施例方式本专利技术通过生成一个拼音与汉字——对应的集合,用以匹配用户输入的 输入字符串,从而判断输入字符串是否存在错误。参见图1,为本专利技术确定搜索引擎中输入字符串正确性的方法流程图,包括S101:获取用户在搜索引擎中输入的输入字符串;S102:利用所述输入字符串以及该输入字符串的拼音串在预置的集合中 进4亍查询,所述集合包含——对应关系的查询词和本文档来自技高网...

【技术保护点】
一种确定搜索引擎中输入字符串正确性的方法,其特征在于,包括: 获取用户在搜索引擎中输入的输入字符串; 利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含具有一一对应关系的查询词和该查询词的拼音串;判断输入字符串的正确性:如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含该集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。

【技术特征摘要】
1、一种确定搜索引擎中输入字符串正确性的方法,其特征在于,包括获取用户在搜索引擎中输入的输入字符串;利用所述输入字符串以及该输入字符串的拼音串在预置的集合中进行查询,所述集合包含具有一一对应关系的查询词和该查询词的拼音串;判断输入字符串的正确性如果所述集合中的拼音串与输入字符串的拼音串或该拼音串的子串匹配,并且,所述输入字符串中不包含该集合中匹配的拼音串在所述集合中对应的查询词,则确定所述输入字符串存在错误,否则,确定所述输入字符串正确。2、 根据权利要求1所述方法,其特征在于,所述集合的预置过程为 对查询日志中的查询词进行拼音标注; 计算所述查询词及其对应拼音串在查询日志中出现的次数; 计算所述查询词与其拼音串出现次数的比值;保留所述比值大于预置的比值阈值的查询词及其拼音串的——对应关 系,构成所述集合。3、 根据权利要求1或2所述方法,其特征在于,如果确定所述输入字符 串存在错误,还包括以所述集合中的查询词替换输入字符串相应位置的汉字,并利用对原始 输入字符串和替换后的字符串进行分词比较,以验证所述输入字符串存在错 误的判断结果是否正确。4、 根据权利要求3所述方法,其特征在于,所述利用对原始输入字符串 和替换后的字符串进行分词比较,以验证所述输入字符串存在错误的结果是 否正确的具体过程为对所述输入字符串进行分词,计算词的个数;对利用所述集合中的查询词替换后的字符串进行分词,计算替换后的字 符串中词的个数;如果替换后的字符串中词的个数大于所述输入字符串中词的个数,则确 定所述输入字符串的正确性判断结果是错误的,并将判断结果修改为所述输 入串正确,否则,维持原来的判断结果。5、 一种确定搜索引擎中输入字...

【专利技术属性】
技术研发人员:王勇
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1