【技术实现步骤摘要】
【国外来华专利技术】相关申请案交叉参考本申请案主张2005年5月9日申请的题为″Matching Engine for QueryingRelevant Documents with Signature Generation and Relevance Detection of TextDocuments″的美国临时专利申请案第60/679,314号、2006年2月24日申请的题为″Matching Engine With Signature Generation″的美国实用型专利申请案第11/361,340号及2006年2月24日申请的题为″Matching Engine For QueryingRelevant Documents″的美国实用型专利申请案第11/361,447号的权益,所述专利全文以引入方式并入本文中。
一般来说,本专利技术涉及搜索引擎
,且更具体来说,涉及用从文档储存库查询关联文档的企业搜索引擎领域。
技术介绍
一般来说,企业搜索引擎是用既定查询语句搜索关联文档的软件系统。所述企业搜索引擎通常由浏览器、索引器、搜索器及查询引擎组成。所述浏览器从预指派位置聚集文档且将其转储到文件储存库中。所述索引器从所述文档储存库读取文档,从所述文档创建索引,且将所述索引存储于索引数据库中。所述搜索器响应于具体查询而搜索所述索引数据库且返回关联文档(称为“命中”)的列表。所述查询引擎分析由用户所提供的查询表达式且将查询命令发送到搜索器以供处理。常规搜索引擎技术不足以针对许多查询问题来搜索关联文档。举例来说,设想有一种其中假定以某一预定百分值(例如,X%)测量两个文档 ...
【技术保护点】
一种用于产生与文档相关联的多个签名的方法,所述方法包含:接收包含文本的文档;对所述文档进行语法分析以产生包含多个权标的权标组,每一权标对应于所述文档中由预定义字符特征所分离的所述文本;基于所述文档中所述文本的频率及分布计算所述权标组中每一权标的得分;基于所述计算的得分排列所述权标组中的每一权标;从所述排列权标中选择一子组的排列权标;及针对所述选择的权标的每一次出现而产生签名。
【技术特征摘要】
【国外来华专利技术】US 2005-5-9 60/679,314;US 2006-2-24 11/361,340;US 1、一种用于产生与文档相关联的多个签名的方法,所述方法包含:接收包含文本的文档;对所述文档进行语法分析以产生包含多个权标的权标组,每一权标对应于所述文档中由预定义字符特征所分离的所述文本;基于所述文档中所述文本的频率及分布计算所述权标组中每一权标的得分;基于所述计算的得分排列所述权标组中的每一权标;从所述排列权标中选择一子组的排列权标;及针对所述选择的权标的每一次出现而产生签名。2、如权利要求1所述的方法,其中所述预定义字符特征包含定界符。3、如权利要求1所述的方法,其中从所述排列权标中选择所述子组的排列权标进一步包含选择预定数量的排列在最前面的权标。4、如权利要求1所述的方法,其中输出签名的选择列表进一步包含输出列表中预定数量的最前面的签名。5、如权利要求1所述的方法,其中所述文档为ASCII文档。6、如权利要求1所述的方法,其进一步包含输出所述产生的签名的列表。7、一种用于产生与文档相关联的多个签名的方法,所述方法包含:接收包含多个字符的文档;规范化所述文档以从所述多个字符中移除无信息字符;基于在所述文档中的出现频率及分布计算所述多个字符中的每一信息字符的得分;基于所述计算的得分排列所述多个字符中的每一信息字符;从所述排列信息字符中选择字符出现;及针对每一选择的字符出现而产生签名。8、如权利要求7所述的方法,其中选择字符出现进一步包含:在每一字符出现周围散列字节以产生散列值;及将所述散列值分类为预定义排列。9、如权利要求7所述的方法,其中产生所述签名进一步包含使用围绕所述选择的字符出现的字符产生所述签名。10、如权利要求7所述的方法,其中所述字符为UTF-8字符。11、如权利要求10所述的方法,其中所述无信息字符包含来自由额外空格、控制字符或其组合组成的群组中的一者。12、如权利要求7所述的方法,其进一步包含输出所述产生的签名的列表。13、一种计算机可读媒体,其经构造以存储可由处理器执行的指令,所述指令在被执行时致使处理器:接收包含文本的文档;对所述文档进行语法分析以产生包含多个权标的权标组,每一权标对应于所述文档中由预定义字符特征所分离的所述文本;基于所述文档中所述文本的频率及分布计算所述权标组中每一权标的得分;基于所述计算的得分排列所述权标组中的每一权标;从所述排列权标中选择一子组的排列权标;及针对所述选择的权标的每一次出现而产生签名。14、如权利要求13所述的计算机可读媒体,其中所述预定义字符特征包含定界符。15、如权利要求13所述的计算机可读媒体,其中所述用以致使所述处理器从所述排列权标中选择所述子组的排列权标的指令进一步包含用以致使所述处理器选择预定数量的排列在最前面的权标的指令。16、如权利要求13所述的计算机可读媒体,其中所述用以致使所述处理器输出签名的所述选择列表的指令进一步包含用以致使所述处理器输出列表中预定数量的最前面签名的指令。17、如权利要求13所述的计算机可读媒体,其中所述文档为ASCII文档。18、如权利要求13所述的计算机可读媒体,其中所述指令在由所述处理器执行时进一步致使所述处理器输出所述产生的签名的列表。19、一种计算机可读媒体,其经构造以存储可由处理器执行的指令,所述指令在被执行时致使处理器...
【专利技术属性】
技术研发人员:任利伟,谭德华,黄飞,黄舒,董爱国,
申请(专利权)人:普罗维拉公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。