具有签名产生及关联性检测的匹配引擎制造技术

技术编号:2826372 阅读:176 留言:0更新日期:2012-04-11 18:40
一种系统及方法产生至少一个与文档相关联的签名。在一个实施例中,接收由文本组成的文档且对所述文档进行语法分析以产生权标组。所述权标组包括多个权标。每一权标对应于所述文档中由预定义字符特征分离的文本。基于所述文档中所述文本的频率及分布计算所述权标组中的每一权标的得分。然后,基于所述计算的得分排列每一权标。选择一子组的所述排列权标及针对所述选择的权标的每一次出现而产生签名。然后,输出签名的选择列表。

【技术实现步骤摘要】
【国外来华专利技术】相关申请案交叉参考本申请案主张2005年5月9日申请的题为″Matching Engine for QueryingRelevant Documents with Signature Generation and Relevance Detection of TextDocuments″的美国临时专利申请案第60/679,314号、2006年2月24日申请的题为″Matching Engine With Signature Generation″的美国实用型专利申请案第11/361,340号及2006年2月24日申请的题为″Matching Engine For QueryingRelevant Documents″的美国实用型专利申请案第11/361,447号的权益,所述专利全文以引入方式并入本文中。
一般来说,本专利技术涉及搜索引擎
,且更具体来说,涉及用从文档储存库查询关联文档的企业搜索引擎领域。
技术介绍
一般来说,企业搜索引擎是用既定查询语句搜索关联文档的软件系统。所述企业搜索引擎通常由浏览器、索引器、搜索器及查询引擎组成。所述浏览器从预指派位置聚集文档且将其转储到文件储存库中。所述索引器从所述文档储存库读取文档,从所述文档创建索引,且将所述索引存储于索引数据库中。所述搜索器响应于具体查询而搜索所述索引数据库且返回关联文档(称为“命中”)的列表。所述查询引擎分析由用户所提供的查询表达式且将查询命令发送到搜索器以供处理。常规搜索引擎技术不足以针对许多查询问题来搜索关联文档。举例来说,设想有一种其中假定以某一预定百分值(例如,X%)测量两个文档的关联性的问题。给定输入文件及百分值X%,则进行从所述文档储存库的关联文档搜索以使所述输入文档与任一返回文档之间的关联性必须大于X%。所述常规搜索引擎对上述查询问题的直接应用导致数个缺点,例如,缺少文档关联性的精确及有效测量。此外,常规系统返回较大列表的文档,其中大多数完全没有关联。因而,检索的精确率低。返回较大列表的文档是所有常规搜索引擎技术的共同的问题,这是因为通过关键术语所提供的查询不能精确地描述用户正试图检索的文档。-->在返回大量不相关文档的同时,常规搜索引擎的另一个问题是其依赖于语言。对于每一种书面语言,常规搜索引擎必须实施不同的语言语法分析程序及分析器。这导致大量使用资源且通常效率不高。常规搜索引擎的再一个问题是其通过常常不准确或为高计算密集的模型测量文档的关联性。这些不准确且资源密集模型的实例包括术语向量空间模型、概率模型、潜在语义空间模型及诸如此类。因此,需要修改及改进常规搜索引擎体系结构以有效地执行查询以返回具有高关联程度的文档的系统及方法。
技术实现思路
在一个实施例中,搜索引擎可经配置以通用应用及使用与文档相关联的签名而有效地执行查询以返回具有高关联程度的文档。与其他机构(例如,关键词)相比所述签名允许文档的更好表征。此外,签名在关联文档之间具有稳定性以使两个关联文档应具有某些共同签名。共同签名的数量可取决于关联程度。此外,签名在文档之间是唯一的以使两个不相关文档不拥有相同的签名。这些因素提供更稳健的环境及机构来进行搜索。在一个实施例中,一种系统(及一种方法)经配置以产生至少一个与文档相关联的签名。所述系统接收包括文本的文档。所述文档经语法分析以产生权标组。所述权标组包括两个或更多个权标。每一权标对应于所述文档中的由预定义字符特征所分离的文本。预定义字符特征的实例包括定界符、小写体、及停止词。在另一个实例中,可通过词根操作识别预定义字符特征。所述系统基于所述文本在所述文档中的频率及分布计算每一权标在所述权标组中的得分。基于计算出的得分,所述系统排列所述权标组中的每一权标。从所述经排列权标,所述系统选择所述子组的排列权标。举例来说,所述系统可经配置以选择最前面的N个经排列权标,其中N为小于经排列权标的总数量的任一整数。一旦选择了所述经排列权标,所述系统产生用于所述选定的权标的每一出现签名。所述系统(例如)通过对所述签名进行分类且选择最初的M个签名来选择一子组产生的签名,其中M为小于所产生的签名的总数量的任一整数。所述过程然后输出产生的签名的列表。签名系统(及方法)的另一实施例提供用于使用UTF-8(8位单一码变换格式)编码的文档的额外灵活性。在一个实施例中,一种系统(及方法)经配置以产生与文档相关联的至少一个签名。特定来说,所述系统接收包括两个或更多个字符的文档。所述文档经规范化以从所述两个或更多个字符移除无信息字符。所述无信息字符的实例包括额外空格或控制字符。所述系统基于在所述文档中的出现频率及分布计算所述多个字符中的每一-->信息字符的得分。基于计算出的得分排列所述多个字符中的每一信息字符。根据所述排列,所述系统选择字符出现且针对每一选择的字符出现而产生签名。然后,可输出一个或多个产生的符号的列表。如前文所提到,签名的产生提供许多益处及优点。举例来说,在搜索引擎签名的情况下可用于有效地执行查询以返回具有高关联程度的文档。如所提及,所述签名允许文档的更好表征。此外,签名在关联文件之间具有稳定性以使两个关联文件应具有某些共同签名。共同签名的数量可取决于关联程度。此外,签名在文档中是唯一的以使两个不相关文档不拥有相同签名。两个关联文档之间的共同签名使搜索引擎能够针对输入文档返回所述关联文档。输入文档的签名的唯一性使如本文所述所配置的搜索引擎能够不返回不相关文档,且相反地,返回高度关联文档。在一个实施例中,搜索引擎可经配置以有效地执行查询以返回具有高关联程度的文档。根据本文的揭示内容所配置的关联性检测引擎基于预定义程度的文档关联性计算既定文档与一列其他文档之间的关联性(或相似性)。在另一个实施例中,一种系统(及方法)经配置以接收包括文本的初始文档。此外,所述接收文档的列表,其也包括文档。所述列的文档用于匹配所述初始(或既定)文档。所述系统还可接收对应于所查找关联程度的呈百分比形式的预定值。举例来说,所述系统可查找具有至少X%(例如,95%)关联性的文档,以便从最终结果过滤出低于X%(例如,95%)关联性的文档。所述系统接收最小子串匹配长度且规范化所述列的文档中的文档的文本。在一个实施例中,所述系统在开始其搜索之前对所述初始文档的文本进行分类,且还可在开始其搜索之前产生所述初始文档的所述文本的子串的散列值。当所述系统确实启动搜索时,其搜索所述初始文档的所述文本与所述列的文档中的每一文档的文本之间的共同子串。然后,其基于所述搜索共同子串计算匹配百分比。在一个实施例中,所述系统经配置以基于相似性函数计算匹配百分比。然后,所述系统输出具有对应于预定值(其对应于最初所定义的关联程度)文档。所述关联性检测引擎有利地经配置以确定呈百分比度量形式的文档关联性。所述配置经构造以便可通过百分比阈值过滤出命中中所包括的不相关文档。此增加搜索引擎利用且提供具有更高认可程度的结果。在一个实施例中,所述关联性检测引擎经有利地构造以提供文档过滤器。其基于文档关联性的定义计算既定文档与一列其他文档之间的关联性(或相似性)。所述关联性以百分比形式给出。针对既定阈值X%,所述引擎过滤出所述列中具有小于X%关联性的文档。本说明书中所描述的特征和优点并不是包括本文档来自技高网
...

【技术保护点】
一种用于产生与文档相关联的多个签名的方法,所述方法包含:接收包含文本的文档;对所述文档进行语法分析以产生包含多个权标的权标组,每一权标对应于所述文档中由预定义字符特征所分离的所述文本;基于所述文档中所述文本的频率及分布计算所述权标组中每一权标的得分;基于所述计算的得分排列所述权标组中的每一权标;从所述排列权标中选择一子组的排列权标;及针对所述选择的权标的每一次出现而产生签名。

【技术特征摘要】
【国外来华专利技术】US 2005-5-9 60/679,314;US 2006-2-24 11/361,340;US 1、一种用于产生与文档相关联的多个签名的方法,所述方法包含:接收包含文本的文档;对所述文档进行语法分析以产生包含多个权标的权标组,每一权标对应于所述文档中由预定义字符特征所分离的所述文本;基于所述文档中所述文本的频率及分布计算所述权标组中每一权标的得分;基于所述计算的得分排列所述权标组中的每一权标;从所述排列权标中选择一子组的排列权标;及针对所述选择的权标的每一次出现而产生签名。2、如权利要求1所述的方法,其中所述预定义字符特征包含定界符。3、如权利要求1所述的方法,其中从所述排列权标中选择所述子组的排列权标进一步包含选择预定数量的排列在最前面的权标。4、如权利要求1所述的方法,其中输出签名的选择列表进一步包含输出列表中预定数量的最前面的签名。5、如权利要求1所述的方法,其中所述文档为ASCII文档。6、如权利要求1所述的方法,其进一步包含输出所述产生的签名的列表。7、一种用于产生与文档相关联的多个签名的方法,所述方法包含:接收包含多个字符的文档;规范化所述文档以从所述多个字符中移除无信息字符;基于在所述文档中的出现频率及分布计算所述多个字符中的每一信息字符的得分;基于所述计算的得分排列所述多个字符中的每一信息字符;从所述排列信息字符中选择字符出现;及针对每一选择的字符出现而产生签名。8、如权利要求7所述的方法,其中选择字符出现进一步包含:在每一字符出现周围散列字节以产生散列值;及将所述散列值分类为预定义排列。9、如权利要求7所述的方法,其中产生所述签名进一步包含使用围绕所述选择的字符出现的字符产生所述签名。10、如权利要求7所述的方法,其中所述字符为UTF-8字符。11、如权利要求10所述的方法,其中所述无信息字符包含来自由额外空格、控制字符或其组合组成的群组中的一者。12、如权利要求7所述的方法,其进一步包含输出所述产生的签名的列表。13、一种计算机可读媒体,其经构造以存储可由处理器执行的指令,所述指令在被执行时致使处理器:接收包含文本的文档;对所述文档进行语法分析以产生包含多个权标的权标组,每一权标对应于所述文档中由预定义字符特征所分离的所述文本;基于所述文档中所述文本的频率及分布计算所述权标组中每一权标的得分;基于所述计算的得分排列所述权标组中的每一权标;从所述排列权标中选择一子组的排列权标;及针对所述选择的权标的每一次出现而产生签名。14、如权利要求13所述的计算机可读媒体,其中所述预定义字符特征包含定界符。15、如权利要求13所述的计算机可读媒体,其中所述用以致使所述处理器从所述排列权标中选择所述子组的排列权标的指令进一步包含用以致使所述处理器选择预定数量的排列在最前面的权标的指令。16、如权利要求13所述的计算机可读媒体,其中所述用以致使所述处理器输出签名的所述选择列表的指令进一步包含用以致使所述处理器输出列表中预定数量的最前面签名的指令。17、如权利要求13所述的计算机可读媒体,其中所述文档为ASCII文档。18、如权利要求13所述的计算机可读媒体,其中所述指令在由所述处理器执行时进一步致使所述处理器输出所述产生的签名的列表。19、一种计算机可读媒体,其经构造以存储可由处理器执行的指令,所述指令在被执行时致使处理器...

【专利技术属性】
技术研发人员:任利伟谭德华黄飞黄舒董爱国
申请(专利权)人:普罗维拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1