自然语言查询的近似模板匹配制造技术

技术编号:20596320 阅读:28 留言:0更新日期:2019-03-16 11:57
系统和方法提供了辨别用于识别搜索结果集合的多个自然语言搜索查询的媒体指南应用。例如,用户可以想要确定Yankees队何时进行他们的下一场棒球比赛。用户可以以多种方式构建他们的查询,诸如“When are the Yankees playing?”、“What time is the Yankees game?”、“When is the next Yankees baseball game?”。无论查询是如何构建的,用户都预期得到相同的结果,即,Yankees队比赛时间的描述。系统和方法使用户能够在搜索项目或信息时使用多个搜索查询以获得期望的结果。

Approximate Template Matching for Natural Language Queries

Systems and methods provide media guide applications for identifying multiple natural language search queries used to identify search results sets. For example, users may want to determine when the Yankees team will play their next baseball game. Users can build their queries in many ways, such as \When are the Yankees playing?\ \What time is the Yankees game?\ \When is the next Yankees baseball game?\. No matter how the query is constructed, users expect the same result, that is, the description of Yankees team's game time. Systems and methods enable users to search items or information using multiple search queries to achieve desired results.

【技术实现步骤摘要】
【国外来华专利技术】自然语言查询的近似模板匹配
技术介绍
在常规系统中,用户可以访问各种各样的媒体和信息,诸如电视节目和体育得分。用户常常可以希望使用免提接口(诸如使用语音控制)搜索信息。常规系统可以允许用户使用语音命令执行搜索。但是,这些系统通常仅辨别固定数量的搜索查询,因为输入语音搜索直接与固定查询本身匹配。因此,用户必须以特定方式构建其语音命令,以便系统可以辨别它。这常常要求用户以他们觉得不自然的方式说话。在许多情况下,用户必须在使用系统之前查找或了解需要如何构建命令。如果语音命令没有被构建成使得系统可以辨别它,那么可以提示用户以被系统辨别的方式重复命令和/或可以不呈现搜索结果。
技术实现思路
因而,本文描述了用于媒体指南系统的方法和系统,该媒体指南系统将多个自然语言查询辨别为具有类似意图并提供与该意图匹配的搜索结果。用户可以希望使用各种不同的语言来构建查询,诸如对比赛时间表的查询。例如,用户可以想要确定Yankees队何时进行他们的下一场棒球比赛。用户可以将他们的查询构建为“WhenaretheYankeesplaying?”或“WhattimeistheYankeesgame?”、“WhenisthenextYankeesbaseballgame?”。媒体指南应用可以确定,对于上述三个示例性查询中的每一个,用户都是试图确定Yankees队何时进行他们的下一场比赛。因而,媒体指南应用可以向数据库查询下一场Yankees队比赛并且可以向用户呈现查询的结果。例如,媒体指南应用可以处理来自搜索查询的词并将该词映射到向量空间,其中具有相似含义的词比不具有相似含义的词更紧密地映射在一起。例如,词“cat”和“dog”可以更紧密地映射在一起,因为这些词通常都出现在描述家庭宠物的文本中。媒体指南应用可以从与搜索查询非常接近的向量空间检索模板,并且可以基于模板检索搜索结果。例如,媒体指南应用可以识别与定位与“cat”和“dog”非常接近的宠物相关联的模板,因为这些词和模板都与家庭宠物有关。例如,因为媒体指南应用将搜索查询的词与通用搜索查询模板的词匹配(例如,通过在向量空间中将搜索查询词与模板的词匹配),所以媒体指南应用能够将搜索查询模板与搜索查询模板本身的变化匹配,而无需将模板的变化存储在存储器中。因此,用户不像现有技术系统中那样有记住和叙述所构建的查询的负担。在一些方面,媒体指南应用可以经由用户输入设备接收包括至少两个词的输入查询。例如,媒体指南应用可以经由连接到媒体指南应用的键盘接收文本输入。在一些实施例中,媒体指南应用可以在音频输入设备(诸如媒体指南应用可访问的麦克风)处检测音频信号(诸如语音输入)。媒体指南应用可以处理音频输入以创建音频信号中的词的文本串。例如,媒体指南应用可以对语音输入执行语音到文本辨别算法。媒体指南应用可以例如在对输入音频执行语音到文本处理之后确定输入音频包括两个词。媒体指南应用计算与输入查询的第一个词对应的第一表示向量和与输入查询的第二个词对应的第二表示向量。例如,媒体指南应用可以使用诸如媒体指南应用可访问的自然语言处理工具包中的词到向量算法之类的算法为输入查询中的每个词生成向量表示。媒体指南应用可以为第一个和第二个词中的每一个计算向量表示,使得第一向量表示中和第二向量表示中的相应值与第一个词和第二个词与词特征集合的特征匹配的程度对应。例如,媒体指南应用可以基于第一个词确定第一个词与来自词集合的其它词共同出现的概率。第一表示向量中的每个相应值可以包括第一个词与该集合中的每个相应词共同出现的相应概率。作为示例,媒体指南应用可以接收输入查询“Where’sEntourage”。媒体指南应用可以为词“Where’s”计算第一表示向量,并且可以为词“Entourage”计算第二表示向量。媒体指南应用从数据库中检索与搜索意图有关的搜索查询模板。例如,媒体指南应用可以向远程服务器查询与搜索意图(诸如确定用户可以访问媒体的位置的意图)相关联的词。词可以与匹配意图的搜索查询模板对应,诸如搜索查询“LocateMedia_X?”。其中术语“Media_X”可以由媒体指南应用用与用户正在搜索的媒体对应的词替换。例如,媒体指南应用可以确定用户正在搜索电影“HungerGames”。响应于确定用户正在搜索电影“HungerGames”,媒体指南应用可以生成对数据库的查询,用术语“HungerGames”替换模板中的术语“Media_X”。如上所述,媒体指南应用可以为搜索查询模板中的每个词计算表示向量。例如,媒体指南应用可以计算与第三个词(诸如“Locate”)对应的第三表示向量,并且可以计算与第四个词(诸如“Media_X”)对应的第四表示向量。如上所述,第三和第四表示向量中的值可以表示第三个词和第四个词与词特征集合的特征匹配的程度,诸如第三个词和第四个词中的每一个与常用词集合中的每个词共同出现的概率。媒体指南应用计算第一表示向量和第三表示向量之间的第一距离。媒体指南应用可以计算距离以创建度量,用于比较第一表示向量与第三表示向量的相似程度。例如,媒体指南应用可以将第一表示向量中的每个值与第三表示向量中的相应值进行比较以计算距离。例如,如果第一表示向量中与第三表示向量中的相应值对应的相应值不相似,那么媒体指南应用可以计算大距离。相反,如果第一表示向量中的相应值与第三表示向量中的相应值相似(例如,第一表示向量内的值与第三表示向量中的对应值之间的差异在阈值内),那么媒体指南应用可以计算小距离。例如,媒体指南应用可以将与词“Locate”对应的表示向量与与词“Where’s”对应的表示向量进行比较,并且可以确定该距离小,因为两个词都指确定项目(item)的地点。媒体指南应用响应于确定第一距离小于第一阈值距离而计算第二表示向量和第四表示向量之间的第二距离。例如,媒体指南应用可以从存储器检索第一阈值,以确定第一个词是否与第三个词相似。例如,媒体指南应用可以如上所述确定“Where’s”和“Locate”的相应表示向量之间的第一距离。媒体指南应用可以将距离的值与阈值进行比较,以确定词是否相似。如果媒体指南应用确定词相似,那么媒体指南应用可以计算第二表示向量和第四表示向量之间的第二距离。例如,媒体指南应用可以如上所述计算第二距离,以量化第二个词(诸如“Entourage”)与第四个词(诸如“Media_X”)的相似程度,因为输入查询的第一个词匹配搜索查询模板的第一个词。媒体指南应用响应于确定第二距离小于第二阈值距离而选择搜索查询模板。例如,媒体指南应用可以从媒体指南应用可访问的远程数据库中检索第二阈值。媒体指南应用可以将第二距离与第二阈值距离进行比较,以确定词是否足够相似以使用搜索查询模板(例如,如果输入查询中的两个词都匹配搜索查询的词)。如果第二距离小于第二阈值距离,那么媒体指南应用可以选择搜索查询模板以向用户提供搜索结果。媒体指南应用基于搜索查询模板检索搜索结果。例如,媒体指南应用可以使用搜索查询模板来构造对包括媒体的位置的数据库的查询。例如,媒体指南应用可以确定,因为用户的搜索查询的第一个词与搜索查询模板的第一个词匹配,并且因为用户的搜索查询的第二个词与搜索查询模板的第二个词匹配,所以应当使用该搜索查询模板来检索搜索结果。在一些本文档来自技高网...

【技术保护点】
1.一种用于执行搜索的方法,所述方法包括:经由用户输入设备接收输入查询,其中输入查询包括至少两个词;计算与输入查询的第一个词对应的第一表示向量和与输入查询的第二个词对应的第二表示向量,其中第一表示向量和第二表示向量的相应值与第一个词和第二个词分别与词特征集合的特征匹配的程度对应;从数据库中检索与搜索意图有关的搜索查询模板,其中搜索查询模板包括至少两个词并且与第三表示向量和第四表示向量相关联,第三表示向量和第四表示向量具有与搜索查询模板的第三个词和搜索查询模板的第四个词分别与词特征集合的特征匹配的程度对应的相应值;计算第一表示向量和第三表示向量之间的第一距离;响应于确定第一距离小于第一阈值距离,计算第二表示向量和第四表示向量之间的第二距离;以及响应于确定第二距离小于第二阈值距离:选择搜索查询模板;基于所选择的搜索查询模板来检索搜索结果;以及生成检索到的搜索结果以供显示。

【技术特征摘要】
【国外来华专利技术】2016.06.20 US 15/187,0291.一种用于执行搜索的方法,所述方法包括:经由用户输入设备接收输入查询,其中输入查询包括至少两个词;计算与输入查询的第一个词对应的第一表示向量和与输入查询的第二个词对应的第二表示向量,其中第一表示向量和第二表示向量的相应值与第一个词和第二个词分别与词特征集合的特征匹配的程度对应;从数据库中检索与搜索意图有关的搜索查询模板,其中搜索查询模板包括至少两个词并且与第三表示向量和第四表示向量相关联,第三表示向量和第四表示向量具有与搜索查询模板的第三个词和搜索查询模板的第四个词分别与词特征集合的特征匹配的程度对应的相应值;计算第一表示向量和第三表示向量之间的第一距离;响应于确定第一距离小于第一阈值距离,计算第二表示向量和第四表示向量之间的第二距离;以及响应于确定第二距离小于第二阈值距离:选择搜索查询模板;基于所选择的搜索查询模板来检索搜索结果;以及生成检索到的搜索结果以供显示。2.如权利要求1所述的方法,其中计算第一表示向量和第三表示向量之间的距离包括:将第一表示向量中的第一值与第二表示向量中的对应的第二值进行比较,以确定第一值与第二值是否相差小于阈值;响应于确定值相差小于阈值,保持距离不变;以及响应于确定值相差不小于阈值,计算值不相似的程度并基于值不相似的程度来递增距离。3.如权利要求1所述的方法,其中计算第一表示向量和第三表示向量之间的第一距离是基于在向量空间中第一表示向量相对于第三表示向量的朝向,使得第一距离是第一表示向量和第三表示向量之间的角度的量度。4.如权利要求1所述的方法,其中用户输入是经由音频输入设备处的音频信号接收的,并且其中第一个词和第二个词是通过对音频信号执行语音到文本处理而从音频信号生成的。5.如权利要求1所述的方法,还包括将来自输入查询的两个词之一包括在对数据库的查询中。6.如权利要求5所述的方法,还包括:识别与第一个词相关联的词性;以及响应于确定第一个词是输入查询的主语,将第一个词包括在对数据库的查询中。7.如权利要求1所述的方法,还包括:将第一个词与停止词列表进行比较,以确定第一个词是否与停止词列表中的停止词匹配;以及响应于确定第一个词与停止词匹配:选择输入查询的第三个词;以及计算第五表示向量,其中第一表示向量的值与输入查询的第三个词与词特征集合的特征匹配的程度对应。8.如权利要求1所述的方法,其中,当第一个词与第三个词的含义匹配并且与第四个词的含义不匹配时,第一距离小于第一表示向量和第四表示向量之间的第三距离。9.如权利要求1所述的方法,其中搜索查询模板是第一搜索查询模板,还包括:响应于确定第一距离大于第一阈值距离:从数据库检索第二搜索查询模板,其中第二搜索查询模板与第五表示向量和第六表示向量相关联,第五表示向量和第六表示向量具有与第二搜索查询模板的第一个词和第二搜索查询模板的第二个词分别与词特征集合的特征匹配的程度对应的相应值;以及计算第一表示向量和第五表示向量之间的第三距离;以及响应于确定第三距离小于第一阈值距离,计算第二表示向量和第六表示向量之间的第四距离;以及响应于确定第四距离小于第二阈值,选择第二搜索查询模板以检索搜索结果。10.如权利要求1所述的方法,其中生成检索到的搜索结果以供显示还包括:从与搜索查询模板相关联的数据库中检索布局;以及基于该布局生成检索到的搜索结果以供显示。11.一种系统,包括被配置为执行搜索的控制电路系统,其中该控制电路系统被配置为:经由用户输入设备接收输入查询,其中输入查询包括至少两个词;计算与输入查询的第一个词对应的第一表示向量和与输入查询的第二个词对应的第二表示向量,其中第一表示向量和第二表示向量的相应值与第一个词和第二个词分别与词特征集合的特征匹配的程度对应;从数据库中检索与搜索意图有关的搜索查询模板,其中搜索查询模板包括至少两个词并且与第三表示向量和第四表示向量相关联,第三表示向量和第四表示向量具有与搜索查询模板的第三个词和搜索查询模板的第四个词分别与词特征集合的特征匹配的程度对应的相应值;计算第一表示向量和第三表示向量之间的第一距离;响应于确定第一距离小于第一阈值距离,计算第二表示向量和第四表示向量之间的第二距离;以及响应于确定第二距离小于第二阈值距离:选择搜索查询模板;基于所选择的搜索查询模板来检索搜索结果;以及生成检索到的搜索结果以供显示。12.如权利要求11所述的系统,其中控制电路系统还被配置为,当计算第一表示向量和第三表示向量之间的距离时:将第一表示向量中的第一值与第二表示向量中的对应的第二值进行比较,以确定第一值与第二值是否相差小于阈值;响应于确定值相差小于阈值,保持距离不变;以及响应于确定值相差不小于阈值,计算值不相似的程度并基于值不相似的程度来递增距离。13.如权利要求11所述的系统,其中控制电路系统还被配置为,当计算第一表示向量和第三表示向量之间的第一距离时,使第一距离基于在向量空间中第一表示向量相对于第三表示向量的朝向,使得第一距离是第一表示向量和第三表示向量之间的角度的量度。14.如权利要求11所述的系统,其中用户输入是经由音频输入设备处的音频信号接收的,并且其中第一个词和第二个词是通过对音频信号执行语音到文本处理而从音频信号生成的。15.如权利要求11所述的系统,其中控制电路系统还被配置为将来自输入查询的两个词之一包括在对数据库的查询中。16.如权利要求15所述的系统,其中控制电路系统还被配置为:识别与第一个词相关联的词性;以及响应于确定第一个词是输入查询的主语,将第一个词包括在对数据库的查询中。17.如权利要求11所述的系统,其中控制电路系统还被配置为:将第一个词与停止词列表进行比较,以确定第一个词是否与停止词列表中的停止词匹配;以及响应于确定第一个词与停止词匹配:选择输入查询的第三个词;以及计算第五表示向量,其中第一表示向量的值与输入查询的第三个词与词特征集合的特征匹配的程度对应。18.如权利要求11所述的系统,其中,当第一个词与第三个词的含义匹配并且与第四个词的含义不匹配时,第一距离小于第一表示向量和第四表示向量之间的第三距离。19.如权利要求11所述的系统,其中搜索查询模板是第一搜索查询模板,并且其中控制电路系统还被配置为:响应于确定第一距离大于第一阈值距离:从数据库检索第二搜索查询模板,其中第二搜索查询模板与第五表示向量和第六表示向量相关联,第五表示向量和第六表示向量具有与第二搜索查询模板的第一个词和第二搜索查询模板的第二个词分别与词特征集合的特征匹配的程度对应的相应值;以及计算第一表示向量和第五表示向量之间的第三距离;以及响应于确定第三距离小于第一阈值距离,计算第二表示向量和第六表示向量之间的第四距离;以及响应于确定第四距离小于第二阈值,选择第二搜索查询模板以检索搜索结果。20.如权利要求11所述的系统,其中控制电路系统还被配置为,当生成检索到的搜索结果以供显示时:从与搜索查询模板相关联的数据库中检索布局;以及基于该布局生成检索到的搜索结果以供显示。21.一种用于执行搜索的系统,该系统包括:用于经由用户输入设备接收输入查询的装置,其中输入查询包括至少两个词;用于计算与输入查询的第一个词对应的第一表示向量和与输入查询的第二个词对应的第二表示向量的装置,其中第一表示向量和第二表示向量的相应值与第一个词和第二个词分别与词特征集合的特征匹配的程度对应;用于从数据库中检索与搜索意图有关的搜索查询模板的装置,其中搜索查询模板包括至少两个词并且与第三表示向量和第四表示向量相关联,第三表示向量和第四表示向量具有与搜索查询模板的第三个词和搜索查询模板的第四个词分别与词特征集合的特征匹配的程度对应的相应值;用于计算第一表示向量和第三表示向量之间的第一距离的装置;响应于确定第一距离小于第一阈值距离,用于计算第二表示向量和第四表示向量之间的第二距离的装置;以及响应于确定第二距离小于第二阈值距离:用于选择搜索查询模板的装置;用于基于所选择的搜索查询模板来检索搜索结果的装置;以及用于生成检索到的搜索结果以供显示的装置。22.如权利要求21所述的系统,其中用于计算第一表示向量和第三表示向量之间的距离的装置还包括:用于将第一表示向量中的第一值与第二表示向量中的对应的第二值进行比较,以确定第一值与第二值是否相差小于阈值的装置;响应于确定值相差小于阈值,用于保持距离不变的装置;以及响应于确定值相差不小于阈值,用于计算值不相似的程度并基于值不相似的程度来递增距离的装置。23.如权利要求21所述的系统,其中用于计算第一表示向量和第三表示向量之间的第一距离的装置还包括用于使第一距离基于在向量空间中第一表示向量相对于第三表示向量的朝向,使得第一距离是第一表示向量和第三表示向量之间的角度的量度的装置。24.如权利要求21所述的系统,还包括用于经由音频输入设备处的音频信号接收用户输入的装置,以及用于通过对音频信号执行语音到文本处理而从音频信号生成第一个词和第二个词的装置。25.如权利要求21所述的系统,还包括用于将来自输入查询的两个词之一包括在对数据库的查询中的装置。26.如权利要求25所述的系统,还包括:用于识别与...

【专利技术属性】
技术研发人员:S·万卡塔拉曼M·马尔霍特拉A·N·莫海迪恩匹
申请(专利权)人:乐威指南公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1