当前位置: 首页 > 专利查询>谷歌公司专利>正文

基于原始用户输入建议和细分用户输入的系统和方法技术方案

技术编号:8366774 阅读:188 留言:0更新日期:2013-02-28 05:19
本发明专利技术提供了一种基于原始用户输入建议和细分用户输入的系统和方法。该方法可以针对基于罗马语系的语言和/或诸如汉语的基于非罗马语系的语言来实现。该方法通常可以包括:接收原始用户输入并识别其中的核心词语;通过根据相似矩阵用另一词语替代原始输入中的核心词语和/或通过根据扩展/缩略表用另一个字序列代替原始输入中的字序列来确定潜在可选输入,其中,一个字序列是另一个字序列的子串;计算每个潜在可选输入的似然;以及根据预定标准(例如,可选输入的似然至少是原始输入的似然)来选择最有可能的可选输入。可以提供包含预计算的原始用户输入和相应的可选输入的高速缓冲存储器。

【技术实现步骤摘要】
本申请是分案申请,其原案申请的申请号为200680021940.2,申请日为2006年5 月4日,专利技术名称为“基于原始用户输入建议和细分用户输入”。
本专利技术总的来说涉及生成可选用户输入。更具体地,公开了基于诸如搜索查询的原始用户输入生成更改和细分的用户输入的系统和方法。
技术介绍
在给定的搜索会话(session)期间,许多用户常常,有时重复地,更改或细分其原始搜索查询。例如,用户可以将原始搜索查询更改为更具体的搜索查询、更宽泛的搜索查询、和/或使用可选的查询词语(term)的搜索查询,直到生成期望的搜索结果。用户搜索查询细分通过基于罗马语系语言(例如,英语)的查询、以及通过基于非罗马语系语言(例如, 汉语、日语、韩语(CJK)、泰国语等)来产生。当原始搜索查询未产生一组好的搜索结果时(例如,如果搜索查询太具体或太宽泛,或者如果搜索查询使用不合适的词语),用户通常更改或细分他们的搜索查询。例如,当一个或多个搜索词语有多种意思且一些返回文档涉及不同于用户想要的多义搜索词语的一个意思时、和/或用户仅对搜索词语的许多方面中给定搜索词语的一个方面感兴趣时,原始用户搜索查询可能产生许多不相关的结果。当用户仅探究关于所指定搜索词语的概念时,原始用户搜索查询也可能产生很多不相关的结果。许多搜索引擎提供与用户原始搜索查询相关的一系列建议的搜索查询。例如, 如果用户的原始搜索查询是“Amazon”,则搜索引擎可以建议其它相关的搜索查询,例如, “Amazon, com”、“Amazon Rainforest”、以及“Amazon River”。搜索查询建议对于基于非罗马语系语言用户(例如,CJK用户)特别有用。具体地,因为基于非罗马语系语言通常具有一组大量的字符且每个字符可能都需要多次按下使用传统基于罗马语系的键盘的按键,所以基于非罗马语系语言用户可以优选单击或选择全部键入的更改搜索查询中的一个建议的搜索查询。例如,许多汉语用户使用拼音(语音拼写法)来输入汉语字符。典型地,传统拼音输入系统转换拼音输入,并提供用户可以从中选择期望的汉语字符集的一组候选的汉语字符集。明显的是,多步输入处理将是繁重且耗时的。搜索查询建议也将对基于罗马语系的语言用户有用。许多搜索引擎(例如,Yahoo、 Teoma、Alta Vista>Askjeeves>AlITheffeb以及Baidu)都提供例如以相关搜索、查询细分、 或查询分簇形式的特征。
技术实现思路
公开了一种基于原始用户输入(例如,搜索查询)来生成更改或细分的用户输入的系统和方法。应当理解,本专利技术可以多种方式来实施,这些方式包括诸如处理、设备、系统、 装置、方法、或其中的程序指令通过光通信线路或电子通信线路来发送的计算机可读介质 (例如,计算机可读存储介质或计算机网络)。术语计算机通常指具有计算能力的任何装置,例如,个人数字助理(PDA)、蜂窝式电话、和网络交换机。以下将描述本专利技术的几个创造性实施例。该方法可以被应用于基于非罗马语系语言(例如,汉语)的查询。该方法通常可以包括接收和识别原始用户输入中的核心词语;通过根据相似矩阵用另一词语代替原始输入中的核心词语、和/或根据扩展/缩略表用另一个字序列替代原始输入中的字序列来确定潜在可选的用户输入,其中,一个序列是另一个序列的子串;计算潜在可选的用户输入的似然;以及根据预定标准(例如,每个所选的可选用户输入的似然至少为原始用户输入的似然)来选择最可能的可选用户输入。该方法还可以包括确定原始用户输入是否在所建议的可选用户输入的预计算高速缓冲存储器中,如果在,则输出存储在预计算高速缓冲存储器中的预计算的最可能的可选用户输入。相似矩阵可以利用语料库生成,且可以具有两个相似词语(包括例如“New York” 和“Los Angeles”的短语词)之间的相似值,尽管每个对应词语对(New和Los和York和 Angeles)不具有高相似性,但这些短语词可以具有非常高的相似性。在一个实施例中,可以通过构建对于语料库中的字的特征向量并利用他们的特征向量来确定两个字/短语之间的相似值来生成相似矩阵。可以从用户输入数据库中生成扩展/缩略表,且可以具有与每对词语序列相关的频率值。在一个实施例中,可以通过确定常用的字序列、滤出非短语字序列、以及使计数与每个术语序列相关作为频率值来生成扩展/缩略表。仅为了示出,扩展/缩略表中的项的实例可以为 “The United State of America” 和 “United States,,。可以通过确定以下的至少一项来计算潜在可选用户输入的似然(a)原始用户输入和潜在可选用户输入之间的关联性,(b)用户将选择潜在可选用户输入的概率,以及(C) 潜在可选用户输入的位置分数(score)。具体地,可以使用原始输入和潜在可选用户输入的调整(align)词语之间的相关值来确定原始用户输入和潜在可选用户输入之间的关联性。在另一实施例中,用于建议可选用户输入的系统通常包括建议/细分服务器,被配置为接收具有至少一个核心词语的原始用户输入;从原始用户输入中识别出核心词语; 通过执行以下中的至少一项来确定潜在可选用户输入(a)根据相似矩阵用另一词语来代替原始用户输入中的至少一个核心词语,该相似矩阵具有两个词语之间的相似值,(b)根据扩展/缩略表用另一个字序列来替代原始用户输入中的字序列,其中,一个序列是另一个序列的子串,该扩展/缩略表具有与每个词语序列相关联的频率值,计算潜在可选用户输入的似然;以及根据预定标准来选择和输出最可能的可选用户输入。在又一实施例中,用于建议可选用户输入的计算机程序产品和计算机系统一起使用,该计算机程序产品包括在其上存储有在计算机处理器上可执行的指令的计算机可读存储介质。该指令通常可以包括接收和识别原始用户输入中的核心词语;通过根据相似矩阵用另一个词语代替在原始输入中的核心词语、和/或根据扩展/缩略表用另一个字序列代替原始输入中的字序列来确定潜在可选用户输入,一个序列是另一个序列的子串;用潜在可选用户输入计算潜在可选用户输入的似然和可选地计算预测用户满意度;以及根据预定标准(例如,每个所选的可选用户输入的似然至少为原始用户输入的似然)来选择最可能的可选用户输入。实现系统和方法的应用可以在服务器站点(例如,在搜索引擎上)上实现,或者可以在客户端站点上(例如,用户计算机)被实现(例如,下载),以提出建议的可选输入或与远程服务器(例如,搜索引擎)连接。下面将通过下列详细描述和附图更详细地呈现本专利技术的这些和其它特征以及优点,其中,以本专利技术的实例原理的方式示出了附图。附图说明 结合附图,通过下面详细的描述,将更好地理解本专利技术,其中,相同的参考标号表示相同的结构元件。图IA是用于生成诸如用户搜索查询的建议的更改/细分的用户输入的示例性系统的框图。图IB是示出用于通过建议一细分服务器的相似字提取器生成相似矩阵的过程的框图。图IC是示出用于通过建议一细分服务器的扩展/缩略表生成器生成扩展/缩略表的过程的框图。图ID是示出用于通过建议一细分服务器的会话语法分析器生成初始的更改/细分高速缓冲存储器的过程的框图。图2A是示出用于生成如可以由图IA所示的系统实现的更改/细分用户输入高速缓冲存储器的示例性本文档来自技高网
...

【技术保护点】
一种方法,包括:接收输入,所述输入包括一个或多个核心词语;识别所述输入中的第一核心词语;确定所述第一核心词语的替代词语,包括:构建出现在语料库中的一个或多个词语中的每个词语的特征矢量,其中,所述一个或多个词语包括所述第一核心词语,确定所述第一核心词语的第一特征矢量与所述出现在语料库中的一个或多个词语的各个特征矢量中的每个特征矢量之间的各个相似性测度,使用所确定的所述第一核心词语的特征矢量与所述出现在语料库中的一个或多个词语的各个特征矢量之间的相似性测度来构建相似性矩阵,以及基于所确定的所述相似性矩阵中的相似性测度,选择替代词语;生成可选输入,包括用所选择的替代词语来替换所述输入中的所述第一核心词语;以及建议所述可选输入。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:吴军林德康钱哲周杰
申请(专利权)人:谷歌公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1