用于超链接名称的系统、方法和软件技术方案

技术编号:2862906 阅读:361 留言:0更新日期:2012-04-11 18:40
人们已经变得更加希望能根据文档中的人的名称来把文档超链接或关联到其它文档。尽管存在把这类超链接安装到司法意见中的自动化系统,但是所述系统通常既不适用于其它类型的名称和文档,也不非常适合于为可能指代两个或多个起同样名称的人的名称确定超链接。因此,发明专利技术人设计了能在不考虑类型的情况下方便超链接文档中的名称的系统、方法和软件。一个示例性的系统包括描述符模块和链接模块。描述符模块开发了用于选择共同出现的文档信息的描述性模式,所述文档信息在识别名称与职业类别之间的关联过程中很有用。链接模块给输入文档中的名称加标记,利用描述性模式来提取共同出现的信息,并且运用了贝叶斯推理网络,所述贝斯推理网络能连同名称及所选的共同出现的文档信息一起用来为每个名称处理(非反向文档频率)的名称罕见性分数,以确定到其它文档的适当超链接,诸如职业目录中的条目。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用于超链接文档中的名称(name)的系统、方法和软件。
技术介绍
近年来,因特网及其它计算机网络的超乎想象的发展,同样在可经由这些网络访问的数据方面的超乎想象的发展提供了动力。用于与这种数据进行交互的其中一种原始模式是通过使用电子文档内的超链接。超链接是用户可选的元素,比如高亮显示的正文或图标,所述元素把电子文档的一部分链接到相同文档的另一部分或链接到数据库或计算机网络中的其它文档上。利用适当的计算机设备和网络访问,用户能够选择或调用超链接,并几乎瞬时地查看可能几乎是位于世界上任何地方的其它文档。此外,其它文档本身可能也包括到包含超链接的其他文档的超链接,这允许用户在全世界范围内从文档“跳”到文档再“跳”到文档,这样可以随意地搜索相关信息。近年来,人们对根据文档中的人名而把文档超链接到其它文档上这一点发生了兴趣。举例来说,为了方便法律的研究,明尼苏达州的St.Paul的西方出版社提供了把代理人和法官的名称超链接到西方法律目录中他们的在线传记项上的数以千计电子司法意见,所述西方法律目录也就是大约1,000,000美国代理人和20,000法官的专有目录。这些超链接允许用户访问司法意见以便快速获得联系及其它关于在意见中署名的律师和法官的具体信息。利用一种将名字(first name)、中间名和姓(second name)、法律事务所名称、城市和州以及法庭信息作为线索以把署名的代理人和法官链接到他们在职业目录中相应条目上的系统,来自动地生成这些司法意见中的超链接。参见Christopher Dozier和RobertHaschart的″Automatic Extraction and Linking of Person Namesin Legal Text(自动法律文本中的人名的提取和链接)″(Proceedingsof RIAO 2000Content Based Multimedia Information Access.Paris,France.pp.1305-1321.April 2000),将所述篇文献引入于此以供参考。尽管自动化系统卓有成效,但是本专利技术人意识到,它至少受到了两种限制。首先,所述系统采用了司法意见中的结构上的(机构上的)特征,比如案件标题,它们不为其它文档所共用,并且由此限制其对其它类型的名称和文档的一般应用。第二,事实上,当一些名称比其它名称在不同程度上有歧义时,所述系统把所有名称看作是有一样歧义的或一样普遍的。例如,名称David Smith比名称Seven Drake更普遍,且因此更有歧义,或者可能会识别出一个以上的人。因此,本专利技术人已经认识到需要其它方法,以用于为名称生成超链接,或更一般地将包含名称的数据关联起来。
技术实现思路
为了满足这个及其它需要,专利技术人设计了系统、方法和软件,用于方便把诸如新闻文章之类的文档中的名称超链接或关联到其它数据结构中名称上,或利用比如像在职业目录里中的记录之类的其它数据结构中的名称来超链接或关联这些的文档中的名称。一个示例性的系统包括描述符模块和链接模块。描述符模块开发了用于选择共同出现的文档信息的描述性模式(pattern),所述文档信息在识别名称与职业类别之间的关联的过程中很有用。链接模块给输入文件中的名称加标记,利用描述性模式来提取共同出现的信息,将每个名称分类成属于特定的职业,并且试图找出职业目录的相应的条目。为了找出相应的条目,链接模块为每个名称确定名称罕见性(唯一性(nameuniqueness)或歧义性)分数,并且将这个分数连同名称和所选的共同出现的文档信息一起输入到贝斯推理网络中。所述推理网络测量那个名称在给定的职业目录中指代特定候选记录(或条目)的概率。链接模块根据概率度量来把候选记录分等级,并根据超过给定阈值的最高等级的记录来定义超链接(或其它逻辑关联)。专利技术人还设计了方便搜索包含潜在有歧义的项的数据的系统、方法和软件,所述有歧义的项比如是人员或其它实体的名称。例如,一种方法要求从用户那里接收查询,识别所述查询中的一个或多个名称,评价名称的歧义性或唯一性,并且如果歧义性十分大的话,就获取更进一步的信息并且更新或补充所述查询以帮助解决歧义性或减小歧义性。举例来说,可以直接从用户那里或通过自动补充式搜索来获得更进一步的信息,所述进一步的信息包括职业称谓、所在地或机构。附图说明图1是体现本专利技术的教导的示例性的系统100的框图。图2是定义供在分类和链接名称的过程中使用的表达式或描述符的操作系统100的示例性方法的流程图。图3是根据贝斯推理网络来定义文档中的名称与数据库中的名称之间的超链接的操作系统100的示例性方法的流程图,所述贝斯推理网络是根据图5训练的。图4是用在操作系统100中以定义超链接的示例性贝叶斯推理系统的框图。图5是训练贝斯推理网络的操作系统100的示例性方法的流程图,所述贝斯推理网络供度量文档中的名称和数据库中的名称是指代相同人的似然率的过程中使用。图6是体现包括本专利技术的教导的示例性搜索方法的流程图。具体实施例方式下列详细说明参照且体现了图1-6,这些详细说明描述并举例说明了本专利技术的一个或多个示例性实施例。提供这些实施例不是为了限制而是仅要举例说明和讲授本专利技术,足够详细地示出并描述这些实施例,以使本领域的技术人员能做出并且使用本专利技术。因此,在适合于避免混淆本专利技术的情况下,本说明书可以省略某些为本领域的技术人员所公知的信息。定义本说明书包含许多这样的术语,它们的含义源自于它们在本领域中的用途或者源自于它们在本说明书的环境内的应用。作为进一步的辅助说明,给出下列术语的定义。术语″一个″是指至少一个。术语″或者″是以其布尔型逻辑意义来使用的,除非是结合″要么...要么″来使用的。术语″文档″指代具有文件名的机器可读数据的任何逻辑集合或排列。术语″数据库″包含机器可读文档的任何逻辑集合或排列。术语″超链接″包含文档中在结构上或功能上符合任何一种过去、现在或者未来的统一资源定位符(URL)标准的任何单字(token)。它也包括任何包含标识专用计算机系统或联网设备的信息的单字。术语″名称″包括一个或多个词,用其来给定并区别于其它的诸如人、动物、地点、事物、集团、机构或法人实体之类的实体。术语″程序模块″包括用于执行特定任务或实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构、和指令或指令集等。所述术语并不限于特定的载体介质。具体化本专利技术的示例性计算机系统图1示出了示例性计算机系统100的图,所述计算机系统并入一种用于自动加标记文档的一个或多个部分并为每个已加标记的部分定义一个或多个相应的超链接的系统、方法和软件。尽管将所述示例性系统展示成为独立部件的互连整体,但是一些其它实施例能利用更多或更少的组件数目来实现它们的功能。此外,一些实施例通过有线或无线的局域网或广域网来将一个或多个组件相互耦合。一些实施例利用一个或多个大型计算机或服务器实现系统100的一个或多个部分。因此,本专利技术不限于任何特定的功能划分。总体上,系统100包括输入文档数据库110、名称链接子系统120、职业目录130、输出文档数据库140和访问设备150。输入文档数据库110包括一个或多个电子文档,代表性地示出了其中的一个文档11本文档来自技高网
...

【技术保护点】
一种计算机实现的方法,包括:    识别文档中的名称;    为所述名称确定罕见性指示符;以及    根据所述罕见性指示符来为所述名称定义一个超链接。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:克里斯多佛C多齐尔
申请(专利权)人:DBA西方集团西方出版社
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1