为搜索词分配指标权重制造技术

技术编号：7162491 阅读：208 留言：0更新日期：2012-04-11 18:40

公开了为文档（３００）中潜在的搜索词分配（２０６）指标权重（３２０），所述指标权重（３２０）基于词的文本和声学两个方面。在一个实施例中，传统的基于文本的权重（３０２，３０４）被分配（２００）给潜在的搜索词。这个权重（３０２，３０４）可以是ＴＦ－ＩＤＦ（“词频率－逆向文档频率”）、ＴＦ－ＤＶ（“词频率辨别值”）、或者任何其他基于文本的权重（３０２，３０４）。然后，对于同一词计算（２０２）发音重音权重（３１８）。该基于文本的权重（３０２，３０４）和该发音重音权重（３１８）被算术组合（２０４）成该词的最终指标权重（３２０）。当输入基于语音的搜索字符串时，该组合的指标权重（３２０）用于（２０６）确定每篇文档（３００）中的每个搜索词的重要性。预计计算发音重音（３１８）的若干可能性。在一些实施例中，对于文档（３００）中的词的对，基于音位间距离计算词间发音距离（３０６）。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本申请主要涉及计算机为媒介的搜索工具，特别涉及为文档中的搜索词分配指标权重。
技术介绍
在通常的搜索情形中，用户键入搜索字符串。该字符串提交给搜索引擎分析。在分析过程中，字符串中许多词而不是全部词都变为“搜索词”(例如“a”和“the”没有变为搜索词并且通常会被忽略)。然后搜索引擎查找包含该搜索词的适当的文档并且将那些适当的文档的列表示出为“命中”以用于用户浏览。给出一个搜索词，查找包含该搜索词的合适的文档是一个精密而复杂的过程。与简单地拉出所有包含该搜索词的文档不同，智能搜索引擎首先预处理在其集合中的所有文档。对每篇文档，搜索引擎准备文档中包含和文档中重要的可能搜索词的列表。关于文档中的词的重要性(称为其的“指标权重”)，有很多已知的度量。一个常见的度量为“词频率-逆向文档频率”(“TF-IDF”)。简单地，该指标权重与词在文档中出现的次数成比例并且与包含该词的集合中文档的数目成反比。例如，词“这个”可能在文档中出现多次。然而， “这个”也出现在集合中几乎每篇文档中，而因此它的TF-IDF非常低。另一方面，因为集合可能只有几篇包含词“鲸鱼”的文档，则词“鲸鱼”在其中反复出现的文档对于鲸鱼有些论述，因此，对于该文档，“鲸鱼”具有高的TF-IDF。因此，智能搜索引擎没有简单地列出包含用户的搜索词的所有文档，而是仅仅列出那些包含具有相对高的TF-IDF (或者搜索引擎使用的任何其他的词重要性度量)的那些文档。以这种方式，智能搜索引擎将最有可能满足用户需要的那些文档放在接近返回的文档列表的顶部。然而，当用户是说出搜索字符串而不是键入时该情形并不有效。在通常的情...

【技术保护点】
１．一种用于为文档（３００）中搜索词分配指标权重（３２０）的方法，所述文档（３００）在文档（３００）集合中，该方法包括：计算（２００）文档（３００）中搜索词的基于文本的指标权重（３０２，３０４）计算（２０２）搜索词的发音重音（３１８）；以及将指标权重（３２０）分配给文档（３００）中的搜索词，所述指标权重（３２０）至少部分地基于所计算的基于文本的指标权重（３０２，３０４）和所计算的发音重音（３１８）的算术组合（２０４）。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：刘宸，
申请(专利权)人：摩托罗拉移动公司，
类型：发明
国别省市：US

全部详细技术资料下载我是这个专利的主人