当前位置: 首页 > 专利查询>雅虎公司专利>正文

用于为具有多个书写系统的语言识别相关查询的系统和方法技术方案

技术编号:2917290 阅读:157 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及用于识别与给定查询相关的一个或多个查询的系统和方法。本发明专利技术的方法包括接收根据具有多个书写系统的语言的一个或多个书写系统书写的查询。识别根据该具有多个书写系统的语言的一个或多个书写系统书写的查询的候选集合。为候选集合中的一个或多个查询计算指示出该一个或多个查询与接收的查询的相似性的得分。

【技术实现步骤摘要】
【国外来华专利技术】著作权通告本专利文献的公开内容的一部分包含受著作权保护的素材。著作权所有人不反对任何人对专利文献或专利公开以其出现在专利商标局专利文件或记录中的形式进行复制再现,但除此之外保留一切著作权权利。相关申请的交叉引用本申请与以下未决申请相关,特此通过引用将每个所述未决申请全部内容并入在此:·2005年8月10日递交的题为“SYSTEM AND METHOD FORDETERMINING ALTERNATE SEARCH QUERIES”的美国专利申请No.11/200,851;以及·2005年11月9日递交的题为“MODULAR OPTIMIZED DYNAMICSETS”的美国专利申请No.60/736,133。
本专利技术一般地提供了用于识别与根据具有多个书写系统(writingsystem)的语言(language)书写的给定搜索查询(search query)相关的一个或多个查询的方法和系统。更具体而言,本专利技术提供了用于接收根据具有多个书写系统的语言的一个或多个书写系统的组合来书写的搜索查询并且从查询的候选集合(candidate set of queries)中识别一个或多个相关查询的方法和系统。
技术介绍
由于因特网的出现和万维网(“web”)上用户可获得的众多网页、媒体内容、广告等等,向用户提供流线型的方法以从web获得有关信息已-->经成为一种需求。搜索系统和过程已经被开发出来满足用户获得这种信息的需求。这种技术的示例可通过Yahoo!、Google和其他搜索提供商网站来得到。目前,用户可以使用能够接入广域网(例如因特网)的客户端设备(例如个人计算机(PC)、PDA、智能电话等等)来搜索和检索出内容。一般来说,用户经由客户端设备输入查询,并且搜索进程返回与查询相关的一个或多个内容项,例如链接、文档、网页、广告,等等。响应于给定查询而返回的内容项可能与用户实际在寻找的主题或题目紧密相关,也可能完全无关。给定查询的成功度可以基于所检索出的内容项与给定查询如何紧密相关来衡量,它很大程度上可能取决于对搜索查询的适当解释。查询是由一个或多个单词和短语构成的。但是,人类用户输入的查询经常无法恰当地描述给定用户可能在寻找的内容。另外,用户可能只拥有关于其可能在寻找的内容的概括的或含糊的想法。例如,用户可能希望利用Yahoo!搜索引擎对在电视上作广告的产品进行搜索。用户可能不知道产品的名称、制造商等等,并且可能只能概括性地描述产品。因此,用户所制定的查询可能太宽泛了,从而导致所检索出的内容项与用户寻找的内容完全无关。类似地,用户所选择的查询词语(query term)可能无法恰当地描述产品,从而导致只检索出少量内容项,或者甚至不检索出任何内容项。已知当前的用于生成可能与给定查询相关的查询的候选集合的技术。例如,用户可输入查询“ MP3 player”,并且被呈现以一个或多个相关查询,例如等等。但是,搜索提供商面临着从查询的候选集合中识别在含义上与给定查询最有关或紧密相关的一个或多个查询的挑战。另外,诸如日语之类的某些语言具有多个书写系统,这进一步增大了从查询的候选集合中识别在含义上与给定查询最有关或相似的查询的复杂度。例如,提交给搜索引擎的单个日语查询可能是根据诸如汉字(Kanji)、片假名(Katakana)、平假名(hiragana)、JASCII、ASCII等等之类的一个或多个日语书写系统的不同组合来书写的。根据日语的汉字书写系统书写的查询看起来可能完全不同于根据日语的片假名和-->平假名书写系统书写的查询,但是两个查询可能具有非常相似或相同的含义。此外,诸如Yahoo!、MSN或Google之类的搜索提供商可利用竞价市场(bidding market),通过该市场,广告主(advertiser)可以为词语出价(bid),以便使得一个或多个广告响应于查询而被显示。例如,一个或多个广告主可能希望显示膝上型计算机的一个或多个广告,并且相应地可为“notebook computer(笔记本计算机)”出价。但是,词语“notebookcomputer”可能是根据具有多个书写系统的语言(例如日语)的一个或多个书写系统来书写的。例如,词语“notebook computer”可能是根据日语平假名书写系统、日语片假名书写系统等等来书写的。用户可以向给定的搜索提供商(例如Yahoo!)提交包括根据日语片假名书写系统书写的词语“notebook computer”的查询。具有相关联的对片假名词语“notebook computer”的出价一个或多个广告可被检索出并显示给用户。在竞价市场中,与为片假名词语“notebook computer”提供最大出价的广告主相关联的广告可以被显示在网页的最突出位置,例如,在被排名的广告列表中排名第一、显示在给定的搜索结果页面的顶部,等等。如果用户选择了一个或多个所显示的广告,则搜索提供商可以例如通过基于广告主的出价向与所选择的广告相关联的广告主收取某一数额的货币,来使用户的选择货币化。但是,仅仅检索出和显示具有相关联的对一个或多个词语的出价的广告,可能导致给定搜索提供商的收入大受损失。例如,如果用户输入由未被一个或多个广告主出价的词语组成的查询,则搜索提供商可能无法向用户返回任何广告,从而导致搜索提供商的收入损失,因为用户将不能选择任何结果。参考上述示例,如果用户输入的查询不包括片假名词语“notebook computer”,而是包括平假名词语“laptopcomputer(膝上型计算机)”,则搜索提供商可能不会显示有适当针对性的广告,尽管片假名查询“laptop computer”和平假名查询“notebookcomputer”的含义是相似的。虽然存在用于从查询的候选集合中识别在含义上与给定查询相同或相似的一个或多个查询的技术,但是现有技术限于根据单个书写系统书写的-->语言。当前的技术因而无法支持对在含义上与根据具有多个书写系统的语言的一个或多个书写系统书写的原始查询最有关或紧密相关的查询的识别。为了克服与现有技术相关联的缺点,本专利技术提供了系统和方法,用于从相关查询的候选集合中识别与根据具有多个书写系统的语言的一个或多个书写系统书写的给定搜索查询在含义上最相似的一个或多个查询。
技术实现思路
本专利技术涉及用于识别与给定查询相关的一个或多个查询的方法和系统。本专利技术的方法包括接收根据具有多个书写系统的语言的一个或多个书写系统书写的查询。根据本专利技术的一个实施例,所接收的查询包括根据一个或多个日语书写系统的组合来书写的查询,所述一个或多个日语书写系统包括日语平假名、片假名、假名、罗马字、JASCII和汉字书写系统。识别与接收的查询相关联的、根据该具有多个书写系统的语言的一个或多个书写系统书写的查询的候选集合。根据本专利技术的一个实施例,查询的候选集合包括如一个或多个查询日志(query log)中所指示的与接收的查询相关的一个或多个查询。该方法还包括为候选集合中的一个或多个查询计算指示出该一个或多个查询与接收的查询的相似性的得分。为候选集合中的一个或多个查询计算的得分指示出来自候选的给定查询与接收的查询在含义上的相似性。根据本专利技术的一个实施例,计算得分包括在将每个查询中的一个或多个本文档来自技高网
...

【技术保护点】
一种用于识别与给定查询相关的一个或多个查询的方法,该方法包括: 接收根据具有多个书写系统的语言的一个或多个书写系统书写的查询; 识别根据所述具有多个书写系统的语言的一个或多个书写系统书写的查询的候选集合;以及 为所述候选集合中的一个或多个查询计算指示出所述一个或多个查询与接收的查询的相似性的得分。

【技术特征摘要】
【国外来华专利技术】US 2006-2-28 11/365,3151.一种用于识别与给定查询相关的一个或多个查询的方法,该方法包括:接收根据具有多个书写系统的语言的一个或多个书写系统书写的查询;识别根据所述具有多个书写系统的语言的一个或多个书写系统书写的查询的候选集合;以及为所述候选集合中的一个或多个查询计算指示出所述一个或多个查询与接收的查询的相似性的得分。2.如权利要求1所述的方法,其中,接收查询包括接收根据一个或多个日语书写系统的组合书写的查询。3.如权利要求1所述的方法,其中,识别查询的候选集合包括识别与所述接收的查询相关的一个或多个查询的集合。4.如权利要求3所述的方法,其中,识别与接收的查询相关的查询的候选集合包括识别如一个或多个查询日志中所指示的与所述接收的查询相关的一个或多个查询。5.如权利要求1所述的方法,其中,接收查询包括接收根据日语平假名书写系统书写的查询。6.如权利要求1所述的方法,其中,接收查询包括接收根据日语片假名书写系统书写的查询。7.如权利要求1所述的方法,其中,接收查询包括接收根据日语假名书写系统书写的查询。8.如权利要求1所述的方法,其中,接收查询包括接收根据日语罗马字书写系统书写的查询。9.如权利要求1所述的方法,其中,接收查询包括接收根据日语JASCII书写系统书写的查询。10.如权利要求1所述的方法,其中,接收查询包括接收根据日语汉字书写系统书写的查询。11.如权利要求1所述的方法,其中,接收查询包括接收构成短语的词语的集合。12.如权利要求1所述的方法,其中,为所述候选集合中的一个或多个查询计算得分包括计算指示出来自所述候选的给定查询与所述接收的查询在含义上的相似性的得分。13.如权利要求1所述的方法,其中,计算得分包括:将所述接收的查询的一个或多个字符转换成罗马字符;将从所述候选集合中选择的查询的一个或多个字符转换成罗马字符;以及计算所述接收的查询和所述从所述候选集合中选择的查询之间的字符编辑距离。14.如权利要求1所述的方法,其中,计算得分包括:将所述接收的查询的一个或多个字符转换成罗马字符;将从所述候选集合中选择的查询的一个或多个字符转换成罗马字符;从所述接收的查询和所述从所述候选集合中选择的查询中去除空格字符;以及计算所述接收的查询和所述从所述候选集合中选择的查询之间的字符编辑距离。15.如权利要求1所述的方法,其中,计算得分包括:将所述接收的查询的一个或多个字符转换成罗马字符;将从所述候选集合中选择的查询的一个或多个字符转换成罗马字符;识别所述接收的查询和所述选择的查询中的独特空格分隔共现单词的数目;识别所述接收的查询和所述选择的查询两者之中的独特空格分隔单词的总数;计算所述独特空格分隔共现单词的数目与两个查询中的所述独特空格分隔单词的总数的商;以及计算数值一(“1”)与计算出的商之间的差。16.如权利要求1所述的方法,其中,计算得分包括识别某一数字是否是所述接收的查询或者从所述候选集合中选择的查询所特有的。17.如权利要求1所述的方法,其中,计算得分包括:识别所述接收的查询和从所述候选集合中选择的查询中的共现日语汉字字符的数目;识别所述接收的查询和所述从所述候选集合中选择的查询中的独特日语汉字字符的总数;计算所述共现日语汉字字符的数目与所述独特日语汉字字符的总数的商;以及计算数值一(“1”)与计算出的商之间的差。18.如权利要求1所述的方法,其中,计算得分包括:将所述接收的查询的一个或多个字符转换成罗马字符;将从所述候选集合中选择的查询的一个或多个字符转换成罗马字符;以及计算所述接收的查询和所述选择的查询共有的罗马字符的数目。19.如权利要求1所述的方法,其中,计算得分包括识别所述接收的查询或者从所述候选集合中选择的查询是否包含非罗马字符。20.如权利要求1所述的方法,其中,计算得分包括:将所述接收的查询的一个或多个日语汉字字符转换成日语假名字符;将从所述候选集合中...

【专利技术属性】
技术研发人员:罗斯琼斯凯文巴兹本杰明雷
申请(专利权)人:雅虎公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1