为搜索词分配指标权重制造技术

技术编号:7162491 阅读:208 留言:0更新日期:2012-04-11 18:40
公开了为文档(300)中潜在的搜索词分配(206)指标权重(320),所述指标权重(320)基于词的文本和声学两个方面。在一个实施例中,传统的基于文本的权重(302,304)被分配(200)给潜在的搜索词。这个权重(302,304)可以是TF-IDF(“词频率-逆向文档频率”)、TF-DV(“词频率辨别值”)、或者任何其他基于文本的权重(302,304)。然后,对于同一词计算(202)发音重音权重(318)。该基于文本的权重(302,304)和该发音重音权重(318)被算术组合(204)成该词的最终指标权重(320)。当输入基于语音的搜索字符串时,该组合的指标权重(320)用于(206)确定每篇文档(300)中的每个搜索词的重要性。预计计算发音重音(318)的若干可能性。在一些实施例中,对于文档(300)中的词的对,基于音位间距离计算词间发音距离(306)。

【技术实现步骤摘要】
【国外来华专利技术】
本申请主要涉及计算机为媒介的搜索工具,特别涉及为文档中的搜索词分配指标权重。
技术介绍
在通常的搜索情形中,用户键入搜索字符串。该字符串提交给搜索引擎分析。在分析过程中,字符串中许多词而不是全部词都变为“搜索词”(例如“a”和“the”没有变为搜索词并且通常会被忽略)。然后搜索引擎查找包含该搜索词的适当的文档并且将那些适当的文档的列表示出为“命中”以用于用户浏览。给出一个搜索词,查找包含该搜索词的合适的文档是一个精密而复杂的过程。与简单地拉出所有包含该搜索词的文档不同,智能搜索引擎首先预处理在其集合中的所有文档。对每篇文档,搜索引擎准备文档中包含和文档中重要的可能搜索词的列表。关于文档中的词的重要性(称为其的“指标权重”),有很多已知的度量。一个常见的度量为“词频率-逆向文档频率”(“TF-IDF”)。简单地,该指标权重与词在文档中出现的次数成比例并且与包含该词的集合中文档的数目成反比。例如,词“这个”可能在文档中出现多次。然而, “这个”也出现在集合中几乎每篇文档中,而因此它的TF-IDF非常低。另一方面,因为集合可能只有几篇包含词“鲸鱼”的文档,则词“鲸鱼”在其中反复出现的文档对于鲸鱼有些论述,因此,对于该文档,“鲸鱼”具有高的TF-IDF。因此,智能搜索引擎没有简单地列出包含用户的搜索词的所有文档,而是仅仅列出那些包含具有相对高的TF-IDF (或者搜索引擎使用的任何其他的词重要性度量)的那些文档。以这种方式,智能搜索引擎将最有可能满足用户需要的那些文档放在接近返回的文档列表的顶部。然而,当用户是说出搜索字符串而不是键入时该情形并不有效。在通常的情形中, 用户的小型个人通信装置(比如蜂窝电话或者个人数字助理)没有足够空间用于全键盘。 相反,具有限制性的键盘,该键盘可能具有很多很小的按键,这些按键对于触摸打字来说太小;或者键盘具有几个按键,每个按键代表若干字母或者符号。用户发现限制性键盘不适合用于输入复杂的搜索查询,因此用户转向基于语音的搜索。在这里,用户说出搜索查询。语音至文本引擎将说出的查询转换为文本。获得的文本查询然后如上所述地由标准的基于文本的搜索引擎处理。虽然该处理适用于大多数情况,但是基于语音的搜索产生了新的问题。特别是,公知技术是单纯地基于文档的文本方面来给文档中的词分配指标权重的。
技术实现思路
本专利技术针对解决以上及其他考虑,可以参照说明书、附图和权利要求理解本专利技术。 根据本专利技术的方面,文档中的潜在搜索词被分配有基于词的文本和声学两方面的指标权重。在一实施例中,传统的基于文本的权重被分配给潜在的搜索词。该权重可以是 TF-IDF、TF-DV(词频率-辨别值)或者是任何其他基于文本的权重。然后,对于同一词计算发音重音权重。基于文本的权重和发音重音权重被算术地组合成用于该词的最终的指标权重。当输入基于语音的搜索字符串时,该组合的指标权重用于确定每篇文档中每个搜索词的重要性。正因为存在很多已知的用于计算基于文本的指标权重的可能性,因此预期用于计算发音重音的几种可能性。在一些实施例中,对于文档中的词的对,基于音位间距离计算词间发音距离。能够使用数据驱动和基于语音学技术来计算音位间距离。下面将描述该过程的详细情况和其他可能性。附图说明虽然所附权利要求书特别地阐明了本专利技术的特征,但是可以通过下面的结合附图的详细说明更好地理解本专利技术及其目的和优点图1是可以实施本专利技术的代表性环境的概述;图2是给搜索词分配指标权重的示例方法的流程图;图3是示出可以如何计算指标权重的数据流图;图如和4b是根据本专利技术计算的指标权重的性能和先前技术的指标权重的性能的比较的试验结果的表格。具体实施例方式参考附图,其中相同的附图标记表示相同的元件,本专利技术被示出为在适合的环境中实施。下面的描述基于本专利技术的实施例并且不应该视为在这里没有详细描述的替代实施例方面限制了本专利技术。在图1中,用户102想进行搜索。不管什么原因,用户102选择说出他的搜索查询至他的个人通信装置104而不是键入该搜索查询。用户102的语音输入被处理(在装置 104上本地处理或者在远程搜索服务器106上处理)为文本查询。该文本查询被提交给搜索引擎(再一次说明本地地或者远程地)。搜索结果在装置104的显示屏上展示给用户 102。通信网络100使得装置104能够在适当的情况下访问该远程搜索服务器106,并且在用户102的指导下在搜索结果中取回“命中”。为了使得能够快速地返回搜索结果,在输入搜索查询前预处理集合中的文档。分析集合中每篇文档中的潜在搜索词,并且给每篇文档中每个潜在的搜索词分配指标权重。 根据本专利技术的方面,指标权重基于文档的传统的基于文本的考虑和特别对于语音查询的考虑(即基于声学考虑)。通常,分配指标权重的预搜索工作在远程搜索服务器106上进行。当用户102将语音搜索查询输入至他的个人通信装置104中时,分析该查询中的搜索词并且将其与预先分配给集合中文档中的搜索词的指标权重进行比较。基于指标权重,合适的文档被作为命中返回给用户102。为了将最合适的文档放置在命中的返回列表的高处,至少部分地基于搜索词的指标权重对命中进行排序。图2示出了本专利技术方法的实施例。图3示出了数据如何在本专利技术的实施例中流动。 在下面的论述中一起考虑这两个图。步骤200应用公知技术来计算最终复合指标权重的第一组成部分。这里,基于文本的指标权重被分配给文档中的每个潜在搜索词。虽然已知并且能够使用多个基于文本的指标权重,但是下述示例描述了公知的TF-IDF指标权重。应用公知技术,文档集合中的文档(图3中300)首先被预处理以移除垃圾、清除标点、将屈折(或有时是派生)词减少到词干、基本或者词根形式,并且过滤掉停止词。然后每篇文档被转换为词向量。词向量用于计算文档的TF(词频率)和文档集合的IDF(逆向文档频率)。具体地,TF(图3中302)是特定文档《里的词tm的归一化计数 η权利要求1.一种用于为文档(300)中搜索词分配指标权重(320)的方法,所述文档(300)在文档(300)集合中,该方法包括计算(200)文档(300)中搜索词的基于文本的指标权重(302,304)计算(202)搜索词的发音重音(318);以及将指标权重(320)分配给文档(300)中的搜索词,所述指标权重(320)至少部分地基于所计算的基于文本的指标权重(302,304)和所计算的发音重音(318)的算术组合(204)。2.根据权利要求1的方法,其中,计算文档中搜索词的基于文本的指标权重包括计算文档中搜索词的词频率;计算文档集合中所述搜索词的逆文档频率;以及通过算术地组合所计算的词频率和所计算的逆向文档频率来计算文档中搜索词的基于文本的指标权重。3.根据权利要求1的方法,其中,计算文档中搜索词的基于文本的指标权重包括计算文档中搜索词的词频率;计算文档集合中所述搜索词的辨别值;以及通过算术地组合所计算的词频率和所计算的辨别值来计算文档中搜索词的基于文本的指标权重。4.根据权利要求1的方法,其中,计算搜索词的发音重音包括将文档集合中的文档中的词翻译成语音学发音;计算翻译的词的对之间的词间发音距离,所述计算至少部分地基于音位间距离;以及计算搜索词发音重音,所述计算至少部分地基于词间发音距离。5.根据权利要求4本文档来自技高网
...

【技术保护点】
1.一种用于为文档(300)中搜索词分配指标权重(320)的方法,所述文档(300)在文档(300)集合中,该方法包括:计算(200)文档(300)中搜索词的基于文本的指标权重(302,304)计算(202)搜索词的发音重音(318);以及将指标权重(320)分配给文档(300)中的搜索词,所述指标权重(320)至少部分地基于所计算的基于文本的指标权重(302,304)和所计算的发音重音(318)的算术组合(204)。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:刘宸
申请(专利权)人:摩托罗拉移动公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1