文档分析与关联系统及方法技术方案

技术编号:7609097 阅读:208 留言:0更新日期:2012-07-22 18:39
用于对多个文档进行标引的方法与系统,每个文档包括一个文本部分,该方法包括:a)解析该多个文档各自的文本部分以形成多个对应的本地文档索引,每个索引与一个对应的文档相关联,并且在一个数据库中存储本地文档索引,其中每个本地文档索引包括包含在该对应文档中的多个本地文本术语以及与每个文本术语相关联的一个本地权重;b)从该多个本地文档索引中形成包括包含在该多个文档中的多个全局文本术语的一个全局文档索引以及一个与每个全局文本术语相关联的全局权重;其中与这些全局文本术语中的每一个相关联的全局权重是相对于与一个参考全局文本术语相关联的一个参数所确定的。此外,在此披露了用于分析文本部分并且从数据库中检索与该文本部分相关的文档的方法和系统。此外,在此披露了用于提炼搜索结果的方法和系统。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及用于从文本字符串和/或包含一个或多个文本部分的文档中的信息提取的方案,并且特别地涉及用于分析文本字符串和/或文档及将这种文档与来自一个数据库的相关信息或文档相关联的方法和装置。本专利技术进一步涉及识别并且检索与文本相关的文档。更具体地,本专利技术涉及通过从文本材料中产生相关术语列表并且权重这种术语以用来分析与这些加权的术语相关的信息和/或文档的一个文档数据库,从较大集合的文本材料中识别和检索感兴趣的文本部分(或文本片段)。本专利技术开发主要用于分析一个文本部分并且将这种文本部分与在一个数据库中的相关的信息和/或文档相关联的方法和系统。然而,应理解本专利技术不限于该具体的使用领域。
技术介绍
信息发起该搜索,所以返回到用户的文档相对于关键词的相关性通常是基于统计上最期望的结果的一个估计的输出,因为关键词本身产生大量的文档匹配,并且在输入文本中也没有足够的信息根据用户/搜索者的特别期望的相关性固有地对所有这些匹配进行排序。随着待搜索的数据库中的文档的数目变大并且输入文本的量变小,在没有额外的信息(即未包含在初始输入文本或搜索查询中的信息)的情况下,搜索结果中的文档的本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:哈米什·奥格尔维欧文·詹姆斯·普莱姆菲利普·安东尼·伯恩斯
申请(专利权)人:哈米什·奥格尔维欧文·詹姆斯·普莱姆菲利普·安东尼·伯恩斯
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术