搜索系统和相应方法技术方案

技术编号:11980503 阅读:113 留言:0更新日期:2015-09-02 10:52
本发明专利技术提供一种搜索系统,其包括在与一段内容相关联的文本上训练的统计模型。与该段内容相关联的所述文本是从多个不同的数据源中提取的。所述系统用于接收文本输入,并生成该段内容与给定的文本输入之间存在相关性的似然性估计。本发明专利技术还提供了相应的方法。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术设及电子捜索系统,例如电子捜索引擎,化及用于电子捜索的相应的方法。 技术背景 传统上,捜索引擎已被设计成返回相关文件(例如网页)来响应用户查询。要做 到该一点,捜索引擎将用户查询(包括关键字)与分配给特定网页的索引项或标签进行比 较。如果用户输入的关键字和网页索引项匹配,则该捜索引擎会返回与用户查询相关的网 页。 然而,该方法存在一些缺点。为了使用传统捜索引擎,用户必须将他的捜索查询提 炼成若干相关的关键字,或短问题,并且,在一般情况下,该捜索的结果高度取决于用户对 于关键字的选择。传统捜索引擎并不能处理大量输入文本或自然语言文本。此外,传统捜 索引擎局限于返回一个或多个特定文件作为结果。 此外,如果与特定网页相关联的索引项集不包括其中的一个关键字,那么传统捜 索引擎可化会错误地把网页作为不相关的网页丢弃。
技术实现思路
本专利技术提供可W解决传统捜索引擎的弊端的一些捜索系统和捜索方法。 本专利技术设及概率驱动捜索系统,该系统可W考虑到一系列证据源,来将相关的内 容提供给用户。基于明确的捜索查询或某些其它文本输入,本专利技术的系统和方法使用统计 模型来将相关的内容建议提供给用户,所述统计模型由与可识别的多段内容相关联的数据 集推导出。 本专利技术的第一个方面在于提供了一种捜索系统。所述捜索系统用于:接收文本输 入,针对多段内容中的每一段生成该段内容与给定的文本输入之间存在相关性的似然性的 估计,并选择性地输出作为内容建议的一段或多段最相关的内容。 所述捜索系统的优选实施例包括统计模型。所述统计模型在与一段内容相关联的 文本上进行训练,其中所述与一段内容相关联的文本是从多个不同的数据源中提取出的。 该系统用于;接收文本输入,并通过统计模型生成该段内容与给定的文本输入之间存在相 关性的似然性的估计。 在一个优选实施例中,统计模型在一些特征上训练,该些特征是从与该段内容相 关联的文本中提取出的。其中所述系统还包括;特征提取机构,其用于从文本输入中提取多 个(一些)特征;W及关联机构,其用于W所述文本输入的各特征查询统计模型,从而生成 该段内容与给定的文本输入之间存在相关性的似然性的估计。 优选地,所述系统包括在与多段内容相关联的文本上训练的多个统计模型。所述 系统用于;通过与多段内容中的每一段相关联的统计模型,生成所述多段内容中的各段内 容与给定的文本输入之间存在相关性的似然性的估计。 所述系统可用于根据相关性将所述多段内容排序,并确定一段或多段最相关的内 容。 所述系统可用于输出所述一段或多段最相关的内容中的各段内容的至少一个代 表。 所述系统可用于输出一段或多段最相关的内容。 该段内容可W是特定的实体或与特定实体相关联的内容。 所述系统可用于输出与所述一段或多段最相关的内容相关联的一个或多个实体 的至少一个代表。 所述系统可W包括在与一段或多段内容有关的非文本数据上训练的统计模型。优 选地,所述系统用于接收非文本证据,并通过在非文本数据上训练的统计模型,生成该段内 容与给定的非文本证据之间存在相关性的似然性估计。 所述系统可W包括用于对文本输入进行分类的分类器。 所述分类器可W用于对多个在文本上训练的统计模型中的每一个模型按内容类 型分类,对文本输入按内容类型分类,并确定与所述文本输入属于相同内容类型的多个统 计模型的子集。优选地,所述关联引擎用于W文本输入的各特征来查询统计模型的子集的 各统计模型,W生成与所述模型的子集的各模型相关联的各段内容与给定的文本输入之间 存在相关性的似然性估计。 所述系统可W包括在自然语言文本上训练的第一语言模型和在对话文本上训练 的第二语言模型。所述分类器可W用于将一部分文本输入与第一、第二模型进行比较,W将 该部分文本输入分类为自然语言或对话语言。优选地,如果该部分文本输入分类为对话语 言,则所述系统用于丢弃该部分文本输入。 文本输入可W通过用户输入到系统中。可替代地,文本输入不通过用户输入到系 统中。例如,无需用户干预,将文本输入提供给系统,例如该系统可接收来自,但不限于,电 视或无线电广播、因特网网页、电子邮件会话、新闻推送等的文本输入。 所述系统可W用于根据多个证据源生成多段内容的相关性的似然性估计,其中所 述多个证据源之一是文本输入。所述系统因此可W用于接收多个证据。 优选地,所述系统包括内容数据库,在该内容数据库中各段内容与多个数据集类 型(例如文本、用户点击历史等)相关联。优选地,各段内容与内容类型(例如,电影、文献 等)相关联。优选地,所述内容数据库包括至少一种基于语言的与各段内容相关联的统计 模型,其中所述至少一个基于语言的统计模型在与所述一段内容相关联的文本数据集上训 练。优选地,所述系统用于将所述输入文本提供给多个基于语言的统计模型,W生成各段内 容与给定的输入文本之间存在相关性的似然性估计。优选地,所述系统除使用输入文本之 夕F,还使用非文本证据来生成该似然性估计。 基于语言的统计模型是在文本上训练过的统计模型。 本专利技术的第二个方面在于,提供一种用于提供一个或多个内容建议的捜索内容的 方法。所述方法包括;接收文本输入,对多段内容中的各各段内容,生成该段内容与给定的 文本输入之间存在相关性的似然性估计,并选择性地输出作为内容建议的一段或多段最相 关的内容。 在一优选实施例中,所述方法为用于确定一段内容是否与文本输入相关的方法。 所述方法包括:在捜索系统接收文本输入,并通过在与一段内容相关联的文本上训练的统 计模型,生成该段内容与给定的文本输入之间存在相关性的似然性估计。所述与该段内容 相关联的文本是从多个不同的数据源中提取出的。 在一优选实施例中,所述统计模型在从与该段内容相关联的所述文本中提取的特 征上训练。所述方法进一步包括;通过特征提取机构从所述文本输入中提取特征,并通过关 联机构W文本输入的各特征查询统计模型,W生成该段内容与给定的文本输入之间存在相 关性的似然性估计。 优选地,所述方法包括使用了与多段内容相关联的文本上训练的多个统计模型的 似然性估计生成步骤,所述似然性估计生成步骤具体为:通过与所述多段内容中的各段内 容相关联的统计模型,生成多段内容中的各段内容与给定的文本输入之间存在相关性的似 然性估计 所述方法可W进一步包括;根据相关性将所述多段内容排序,并确定一段或多段 最相关的内容。 所述方法可W进一步包括;输出所述一段或多段最相关的内容中的各段内容的至 少一个代表。 所述方法可W进一步包括;输出一段或多段最相关的内容。 所述一段内容可W是特定的实体。所述一段内容可W与特定实体相关联,所述方 法进一步包括:输出与所述一段或多段最相关的内容相关联的一个或多个实体的至少一个 代表。 所述方法可W包括;通过在与一段或多段内容相关的非文本数据上训练的统计模 型,生成多段内容中的各段内容与给定的非文本数据之间存在相关性的似然性估计。 本专利技术的一个实施例中,所述方法包括;通过分类器对文本输入进行分类。 所述方法可W包括;通过分类器对在文本上训练的所述多个统计模型中的每一个 按内容类型分类,对文本输入按内容类型分类,W及确定与所述文本输入属于相同内容类 型的多个统计模型的子集。所述方法包括;通过所述关联引擎,W文本输入的各特征来本文档来自技高网...

【技术保护点】
一种搜索系统,其包括:在与一段内容相关联的文本上训练的统计模型,其中,与该段内容相关联的所述文本是从多个不同的数据源中提取的,所述系统用于接收文本输入;以及通过所述统计模型,生成该段内容与给定的所述文本输入之间存在的相关性的似然性估计。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:本杰明·麦德洛克大卫·保罗·威廉姆斯
申请(专利权)人:触摸式有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1