上下文搜索字符串同义词的自动生成制造技术

技术编号:15529709 阅读:118 留言:0更新日期:2017-06-04 17:00
对内容的搜索可以利用特有预留短语来改进。预留短语可以将查询指向内容的具体预选的部分。同义词可以被生成并且与预留短语相关联,以使得即使当查询不包括预留短语时,同义词也可以被用于将查询映射到预留短语和相关联的内容。同义词可以被生成和过滤,以使得同义词仅与一个预留短语相关联,由此减少搜索歧义。

Automatic generation of context search string synonyms

Search for content can be improved by using unique reserved phrases. A reserved phrase can point a query to the specific preselected portion of content. Synonyms can be generated and associated with reserved phrases so that even if the query does not include reserved phrases, synonyms can also be used to map queries to reserved phrases and related content. Synonyms can be generated and filtered so that synonyms are associated only with a reserved phrase, thus reducing search ambiguity.

【技术实现步骤摘要】
【国外来华专利技术】上下文搜索字符串同义词的自动生成
本专利技术的实施例一般涉及用于响应于查询而向用户提供更相关和有用的内容的方法和系统,并且更具体地涉及响应于查询而使用特有预留短语向用户提供结果。
技术介绍
由用户执行的Web搜索或企业搜索常常将返回与搜索的预期目标不相关的结果。例如,可能向搜寻产品的技术帮助的用户呈现针对不相关的产品的结果或者该产品的新版本的销售报价。在许多情况下,当用户没有输入产品的全名或其它搜索项时,web搜索或企业搜索可能不会返回任何结果。因此,需要改进的方法和系统,以用于向用户提供更相关和有用的内容。
技术实现思路
本专利技术的实施例提供了用于响应于查询而向用户提供更相关和有用的内容的系统和方法。根据一个实施例,可以利用特有预留短语来改进对内容的搜索。预留短语可以将查询指向内容的具体预选部分。同义词可以被生成并且与预留短语相关联,以使得即使当查询不包括预留短语时,同义词也可以被用于将查询映射到预留短语和相关联的内容。同义词可以被生成和过滤,以使得同义词仅与一个预留短语相关联,由此减少搜索歧义。根据一个实施例,搜索字符串扩展可以包括接收预留短语的列表。列表中的每个预留短语可以与内容相关,并且每个字符串可以与内容的一部分相关联。每个预留短语可以根据语言特性来分类。例如,语言特性包括名词、动词或地点中的至少一个。可以为列表中的每个预留短语生成同义词的候选列表。可以通过去除同义词重复、将同义词与同义词规则进行比较以及去除与同义词规则匹配的同义词来过滤同义词的候选列表。每个同义词可以根据相关联的预留词的语言特性进行分类。根据一个实施例,生成同义词的候选列表可以包括生成预留短语中的每个预留短语的子串变体的列表。附加地或可替代地,生成同义词的候选列表可以包括分析内容并且确定内容中的被用于指代预留短语中的每个预留短语的替代词。一旦接收到查询字符串,就可以识别来自候选同义词的经过滤的列表的与查询字符串的一部分匹配的匹配同义词。可以关于查询字符串的该部分是否与匹配同义词的语言特性匹配做出确定。然后可以发送与匹配同义词的预留短语相关联的内容的部分。附图说明图1是示出其中可以实现本专利技术的各种实施例的示例性分布式系统的组件的框图。图2是示出由本专利技术的实施例提供的服务可以通过其作为云服务被提供的系统环境的组件的框图。图3是示出其中可以实现本专利技术的实施例的示例性计算机系统的框图。图4是示出根据本专利技术的一个实施例的上下文搜索系统的元件的框图。图5是示出根据本专利技术的实施例的同义词引擎的元件的附加细节的框图。图6是示出根据本专利技术的一个实施例的用于为预留短语确定同义词的过程的流程图。图7是示出根据本专利技术的一个实施例的使用预留短语以及它们的同义词对用户查询进行处理的附加细节的流程图。图8是示出根据本专利技术的一个实施例的用于为预留短语确定同义词的过程的流程图。具体实施方式在以下描述中,为了解释的目的,阐述了许多具体细节以便提供对本专利技术的各种实施例的透彻理解。然而,对于本领域技术人员将明显的是,可以在没有这些具体细节中的一些细节的情况下实践本专利技术的实施例。在其它实例中,公知的结构和设备以框图的形式示出。随后的描述仅提供示例性的实施例,并且不是旨在限制本公开的范围、适用性或配置。相反,示例性实施例的随后描述将为本领域技术人员提供用于实现示例性实施例的可行描述。应当理解,在不背离如所附权利要求中阐述的本专利技术的精神和范围的情况下,可以对元件的功能和布置进行各种改变。在以下描述中给出了具体细节以提供对实施例的透彻理解。然而,本领域普通技术人员将理解,可以在没有这些具体细节的情况下实践实施例。例如,电路、系统、网络、过程和其它组件可以以框图的形式被示为组件,以便不会以不必要的细节模糊实施例。在其它实例中,公知的电路、过程、算法、结构和技术可以在没有不必要的细节的情况下被示出,以便避免模糊实施例。而且,应当指出,单独的实施例可以被描述为被描绘为流程图表、流程图、数据流程图、结构图或框图的过程。虽然流程图可以将操作描述为顺序的过程,但是操作中的许多操作可以被并行地或并发地执行。此外,操作的顺序可以被重新布置。过程在它的操作完成时被终止,但是可以具有未包括在附图中的附加步骤。过程可以对应于方法、函数、进程(procedure)、子例程、子程序等。当过程对应于函数时,它的终止可以对应于函数返回到调用函数或主函数。术语“机器可读介质”包括但不限于便携式或固定存储设备、光存储设备、以及能够存储、包含或携带(一条或多条)指令/或数据的各种其它介质。代码段或机器可执行指令可以表示进程、函数、子程序、程序、例程、子例程、模块、软件包、类、或指令、数据结构或程序语句的任何组合。代码段可以通过传递和/或接收信息、数据、自变量、参数或存储器内容耦接到另一代码段或硬件电路。信息、自变量、参数、数据等可以经由包括存储器共享、消息传递、令牌传递、网络传输等的任何合适的手段来传递、转发或传输。此外,实施例可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合来实现。当用软件、固件、中间件或微代码来实现时,用于执行必要任务的程序代码或代码段可以被存储在机器可读介质中。(一个或多个)处理器可以执行必要任务。网站、互联网门户、内联网等可以具有允许用户输入查询的搜索能力。可以包括与产品、产品名称或其它查询项相关的问题的查询可以被处理并且与现有内容进行比较,以向用户提供与查询相关的信息或者到信息的链接。例如,搜索功能可以被包括在计算机产品制造商的网站上。搜索功能可以是允许用户输入查询项的文本输入框。查询项可以包括关于制造商的产品的问题、对关于与产品相关的技术问题的更多信息的请求,等等。查询可以被处理,以向用户返回与查询项相关的来自网站的内容或到内容的链接。在一些实施例中,查询项可以与网站或内容管理系统中的词或文本进行比较。查询可以返回与查询的词匹配的内容的部分。搜索系统可以具有用于基于搜索结果的期望精度将搜索项与内容文本匹配的不同方法。在一些情况下,内容以及查询的语言分析可以被用于提高结果的精度。在一些情况下,可以使用查询词和内容的直接匹配。在一些情况下,仅用户输入的确切项与内容文本匹配。搜索系统可以仅返回与查询项完全匹配的结果。虽然直接匹配可以提供良好的精度,但是它对许多应用来说可能是不够的。用户可以输入嵌有在内容中使用的词或短语的完整句子或问题。用户可以输入在内容中使用的词的变体。由于字的小变化,可能不向用户呈现任何结果。例如,制造商的网站可以包括关于制造商的产品的信息。网站上的产品的官方名称可以包括诸如“ComputecX1000”和“ComputecV”之类的名称。可能输入具有项“WherecanIbuytheComputecX”的查询的用户可能不会接收到任何结果。在一些其它情况下,可以使用子串搜索。在一些情况下,输入的查询项的变体或子串可以与内容文本的子串匹配。子串搜索可以提供较低的精度并且可以返回更多的结果。在许多情况下,子串搜索可能返回不相关的结果。继续上面的示例,如果用户输入具有项“Computec1000”的查询,则系统可能尝试将内容与子串“Computec”和“1000”匹配,这可以匹配用于两个产品“ComputecX1000”和“ComputecV”的字本文档来自技高网...
上下文搜索字符串同义词的自动生成

【技术保护点】
一种用于搜索字符串扩展的方法,所述方法包括:接收预留短语的列表,所述列表中的每个预留短语与内容相关,并且其中每个字符串与所述内容的一部分相关联;根据语言特性对每个预留短语进行分类;为所述列表中的每个预留短语生成同义词的候选列表;通过以下操作来过滤所述同义词的候选列表:去除同义词重复;以及将同义词与同义词规则进行比较,并且去除与所述同义词规则匹配的同义词;以及根据相关联的预留词的语言特性来对每个同义词进行分类。

【技术特征摘要】
【国外来华专利技术】2014.11.20 US 14/548,5531.一种用于搜索字符串扩展的方法,所述方法包括:接收预留短语的列表,所述列表中的每个预留短语与内容相关,并且其中每个字符串与所述内容的一部分相关联;根据语言特性对每个预留短语进行分类;为所述列表中的每个预留短语生成同义词的候选列表;通过以下操作来过滤所述同义词的候选列表:去除同义词重复;以及将同义词与同义词规则进行比较,并且去除与所述同义词规则匹配的同义词;以及根据相关联的预留词的语言特性来对每个同义词进行分类。2.如权利要求1所述的方法,还包括:接收查询字符串;从候选同义词的经过滤的列表中识别与所述查询字符串的一部分匹配的匹配同义词;以及确定所述查询字符串的所述部分是否与所述匹配的同义词的语言特性匹配。3.如权利要求1所述的方法,还包括:发送与匹配同义词的预留短语相关联的所述内容的所述部分。4.如权利要求1所述的方法,其中生成同义词的候选列表包括:生成所述预留短语中的每个预留短语的子串变体的列表。5.如权利要求1所述的方法,其中生成同义词的候选列表包括:分析所述内容;以及确定所述内容中的被用于指代所述预留短语中的每个预留短语的替代词。6.如权利要求1所述的方法,其中语言特性包括名词、动词或地点中的至少一个。7.一种系统,包括:处理器;以及存储器,所述存储器与所述处理器耦接并且可由所述处理器读取,并且在所述存储器中存储指令集合,所述指令集合当由所述处理器执行时,使得所述处理器通过以下操作来执行搜索字符串扩展:接收预留短语的列表,所述列表中的每个预留短语与内容相关,并且其中每个字符串与所述内容的一部分相关联;根据语言特性对每个预留短语进行分类;为所述列表中的每个预留短语生成同义词的候选列表;通过以下操作来过滤所述同义词的候选列表:去除同义词重复;以及将同义词与同义词规则进行比较,并且去除与所述同义词规则匹配的同义词;以及根据相关联的预留词的语言特性对每个同义词进行分类。8.如权利要求7所述的系统,还包括:接收查询字符串;从候选同义...

【专利技术属性】
技术研发人员:F·诺兹C·奇斯格G·克鲁斯特曼J·拉施拉斯A·D·E·委德拉尔S·尼斯瓦M·扎拉芬
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1