【技术实现步骤摘要】
搜索查询和文档相关数据翻译相关申请的交叉引用本申请要求在2011年10月25日提交的序列号为61/551,363的美国临时专利申 请、以及在2011年12月16日提交的第13/328924号美国专利申请的优先权。
技术介绍
搜索互联网以定位相关的文档和广告会是挑战性的,这是因为搜索查询和web (网页)文档/广告往往使用不同的语言风格和词汇。存在与目前的互联网搜索技术有关 的各种问题。通常,查询包含与相关文档中的术语不同但有关的术语,这导致了被称为词 汇空缺问题的公知的信息检索问题。有时,当查询包含具有导致含糊不清的多重含义的 术语时,搜索引擎检索到与用户的意图不匹配的许多文档,这可以称为嘈杂扩散(noisy proliferation)问题。由于搜索查询和web文档是由各种各样的人用非常不同的语言风格 编著的这一事实,这两个问题在互联网搜索中实质上更为普遍。研究团体所开发的典型信息检索方法(不管其在基准数据集(例如,文本检索会议 (TREC)集合)上的现有技术性能如何)基于词袋和精确术语匹配方案,并且不能有效地处理 这些问题。一些方法采用趋向于使嘈杂扩散问题更糟糕的特 ...
【技术保护点】
一种计算环境中的、至少部分地在至少一个处理器上执行的方法,包括应用用于将一个或更多个搜索查询术语映射(204)到文档相关数据的翻译模型(116),所述应用包括:处理包含对应于词对齐的查询?文档对(114)的数据的所述翻译模型(116);将所述翻译模型(116)结合(408)到信息检索模型(106)中;以及响应于搜索查询而使用(410)所述信息检索模型(106)来产生包含相关文档的搜索结果。
【技术特征摘要】
2011.10.25 US 61/551,363;2011.12.16 US 13/328,9241.一种计算环境中的、至少部分地在至少ー个处理器上执行的方法,包括应用用于将ー个或更多个搜索查询术语映射(204)到文档相关数据的翻译模型(116),所述应用包括处理包含对应于词对齐的查询-文档对(114)的数据的所述翻译模型(116);将所述翻译模型(116)结合(408)到信息检索模型(106)中;以及响应于搜索查询而使用(410)所述信息检索模型(106)来产生包含相关文档的搜索結果。2.根据权利要求1所述的方法,其中,处理所述翻译模型还包括处理搜索引擎使用数据以识别词对齐的查询-文档对,以便使用与每个查询-文档对相关联的后验分布和似然性分布来训练所述翻译模型。3.根据权利要求1所述的方法,其中,处理所述翻译模型还包括估计表示捜索查询子语言与文档子语言之间的语义关系的翻译概率,其中,估计所述翻译概率还包括以下至少ー个调节自翻译概率或计算广告的查询翻译概率。4.根据权利要求1所述的方法,还包括生成与广告相关联的元数据流或建议关键词中的至少ー个。5.根据权利要求1所述的方法,还包括以下至少ー个基于所述捜索查询计算每个潜在文档的相关性得分或基于所述捜索结果计算每个相关文档的点击预测得分。6.一种计算环境中的系统,包括训练机构(104),所述训练机构被配置成处理词对齐训练语料库(114)...
【专利技术属性】
技术研发人员:高剑峰,威廉·多兰,克里斯托弗·布罗克特,王正灏,李玫,黄学东,
申请(专利权)人:微软公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。