文档分析与关联系统及方法技术方案

技术编号:7609097 阅读:185 留言:0更新日期:2012-07-22 18:39
用于对多个文档进行标引的方法与系统,每个文档包括一个文本部分,该方法包括:a)解析该多个文档各自的文本部分以形成多个对应的本地文档索引,每个索引与一个对应的文档相关联,并且在一个数据库中存储本地文档索引,其中每个本地文档索引包括包含在该对应文档中的多个本地文本术语以及与每个文本术语相关联的一个本地权重;b)从该多个本地文档索引中形成包括包含在该多个文档中的多个全局文本术语的一个全局文档索引以及一个与每个全局文本术语相关联的全局权重;其中与这些全局文本术语中的每一个相关联的全局权重是相对于与一个参考全局文本术语相关联的一个参数所确定的。此外,在此披露了用于分析文本部分并且从数据库中检索与该文本部分相关的文档的方法和系统。此外,在此披露了用于提炼搜索结果的方法和系统。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及用于从文本字符串和/或包含一个或多个文本部分的文档中的信息提取的方案,并且特别地涉及用于分析文本字符串和/或文档及将这种文档与来自一个数据库的相关信息或文档相关联的方法和装置。本专利技术进一步涉及识别并且检索与文本相关的文档。更具体地,本专利技术涉及通过从文本材料中产生相关术语列表并且权重这种术语以用来分析与这些加权的术语相关的信息和/或文档的一个文档数据库,从较大集合的文本材料中识别和检索感兴趣的文本部分(或文本片段)。本专利技术开发主要用于分析一个文本部分并且将这种文本部分与在一个数据库中的相关的信息和/或文档相关联的方法和系统。然而,应理解本专利技术不限于该具体的使用领域。
技术介绍
信息发起该搜索,所以返回到用户的文档相对于关键词的相关性通常是基于统计上最期望的结果的一个估计的输出,因为关键词本身产生大量的文档匹配,并且在输入文本中也没有足够的信息根据用户/搜索者的特别期望的相关性固有地对所有这些匹配进行排序。随着待搜索的数据库中的文档的数目变大并且输入文本的量变小,在没有额外的信息(即未包含在初始输入文本或搜索查询中的信息)的情况下,搜索结果中的文档的相关性变得不可能确定。在如Google 、ΥΑΗ00 、微软BING 及其他的互联网搜索引擎的例子中,搜索算法的开发者已经发现了改进搜索结果的相关性的方法,最著名是Google 的通过网页排名算法,这主要使用超文本链接结构以形成数十亿文档和数百万搜索术语的流行度指数。流行度对于互联网“文本到文档”搜索很奏效,因为流行度方法学在绝大多数案例中找到与输入搜索查询相关的合适的信息。然而,因为输入和输出要求在很大程度上不同,所以这种类型的搜索对文档到文档搜索而言不太有用。文档到文档搜索以更多的输入文本并且总体上在给定增加的输入信息下对相关输出结果的更大期望发起的。迄今,Google 将搜索查询中的输入术语的数目限制到50个术语或2048个字符。Google 搜索的本质倾向于(不总是,但总体上是这种情况)当添加越多的信息到搜索查询中时找到越少的结果,因为额外的输入文本术语用来从搜索结果中排除(裁剪)尽可能多的文档。这对于文档到文档搜索而言不是一个有用的方法,因为当使用其中包含的文本作为输入搜索术语时,可能匹配一个特定文档的仅有的文档是其本身。其他传统的搜索方法使用基于匹配元信息的技术。元信息主要是应用到每个文档的一组标记(或标签),这允许文档以不同的尺寸对齐。一个关于工作搜索的示例是应聘者以两个元字段位置=“洛杉矶”和工作类型=“全职”寻找一个工作。排除没有这些元匹配的所有文档。当数据库搜索在一个字段中的匹配(或非匹配)而不是跨整个文档的匹配时,元标签的特定本质允许非常快速地搜索数据库,这允许在检查全部文本内容之前从搜索中排除许多文档。然而,元搜索具有几个缺点,最显著的是必须为数据库中的每一个文档创建这些标签。这通常手动完成作为数据库输入流程的一部分,这极其费时并且还阻止数据的批量导入。尽管如隐性语义索引(LSI)的技术由于其语义上确定合适的标签的能力而变得更加流行。第二个显著的问题是围绕不同数据库的交叉兼容性问题。通常每个数据库提供者为每个元字段使用不同的规定,这使得跨不同平台的搜索实际上不可能。在一些例子中,元标签是自动产生的,但在许多例子中这或者简单地不是实际的、高度受限的、或者在分配到数据库中的文档的元标签的信息中导致较大的错误的实例。不像上述文本到文档搜索和元搜索,文档到文档搜索在输入处理要求上具有进一步额外的复杂性,并且因此需要用于计算数据库中的文档相对于输入文档的相关性的不同的方法学。特别地,文档到文档搜索的目标不是找到新的信息(正如文本到文档或元标签搜索),而是找到最相似的文档、或包含最相关信息的文档。这种类型的文档搜索的应用很多,如研究、工作-应聘者匹配、法律案例匹配、专利资产组合管理及许多其他,在所有的这些例子中,搜索者以至少一个文档开始,这相比较于上述文本到文档和元标签搜索而言是比较大量的信息。有几个文档到文档搜索应用的示例。例如,美国Iparadigms LLC公司已开发了一种用于学生和学术作品的抄袭的检测的文档搜索引擎。该技术寻找在数据库中存储的与输入文本部分或输入文本的多个部分匹配的参考文档的相同的单词字符串,这例如可以是有一个学生提交的作为课程研究的一部分的文章或论文。这种类型的搜索对于找到非常相似的内容片断(即相似措辞)而言非常有用,但当尝试寻找使用不同的措辞的相似内容的文档时则失效。此外,美国Burning Glass Technologies公司已经开发了特别用于人力资源行业的技术。Burning Glass技术为一个特定职位识别成功的应聘者,并且然后使用相似的选择规则寻找与先前已经成功找到工作的应聘者具有相似度的应聘者。这种类型的匹配使用隐马尔可夫模型,并且是非常有用的技术,但是这种模型具有必须依赖先前成功案例的识别来预测新的成功案例的缺点。这一贯要求重复相同工作说明,因此这很大程度上仅对再补缺相似职位的大公司有用。因为大多数其他的文档到文档搜索不是重复、评估和再重复的,所以该技术在工作搜索之外不是非常有用的。因此,因为该搜索技术依赖重复和已经建立的成功案例的定义,Burning Glass旨在基于公司/机构的整合而不是更广泛的方法去匹配,这总之在一个封闭系统中的效果更好。在搜索方法学的其他示例中,如美国Intent Cafe Inc的专利匹配技术中采用隐形语义分析(LSA)技术帮助专利搜索、资产组合分析、专利强度等。这种方法学观察文本术语并基于总量得分(每个术语是如何罕见)使用反向权衡对术语打分以找到一个匹配,例如在美国专利号4,839,853中所描述的。然而,LSA技术受到系统开始建立时的良好程度的限制,并主要依赖于在许多应用中可能不可靠的反向词语总量分析。同样,由于用户与通过这种LSA类型技术获得的结果进行交互,LSA技术总体上不能实时地适配,即这些技术在很大程度上是严格的并且很慢或者不能随着一个或多个数据库中的信息改变或者来自例如用户和/或额外的/外部的一个或多个信息源的外部输入而适配。当在输入中的术语的数目变得较大时,LSA分析也变得极其计算密集的,因为LSA通常使用一个术语和文档在每个对应的轴上的二维矩阵。这在所谓的“术语空间”中产生识别每个文档的一个语义向量。当术语的数目和/或文档的数目变得较大时,需要近似值以减少计算负荷。这样的减少典型地通过将语义上相似的术语(它们展示许多相同的文档)分组为更高级的组以减少术语空间。然而,遗憾的是,这种的简化具有几个缺点,主要在于a)较罕见的术语不能配合到任何组中,b)具有混淆分组的双意的词(多义词),及C)具有相似的意思的多个词(同义词)。当这些语境问题中的任意一个出现在关键搜索术语上时,对近似值的依赖会产生更差的结果。另一个搜索方法学涉及一个流程,该流程包括接收一个查询、识别该查询中的短语、识别该查询中短语的可能的一个或多个延伸以及搜索文档中的短语和从查询中识别的短语延伸之间一致的一个文档数据库。在美国专利申请号20060031195中披露了这种方法。该方法似乎与自动完成功能具有许多相似性,例如Google 使用的基于先前搜索查询的流行度来预测本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:哈米什·奥格尔维欧文·詹姆斯·普莱姆菲利普·安东尼·伯恩斯
申请(专利权)人:哈米什·奥格尔维欧文·詹姆斯·普莱姆菲利普·安东尼·伯恩斯
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术