推荐词条以指定本体空间制造技术

技术编号:2915871 阅读:203 留言:0更新日期:2012-04-11 18:40
推荐词条以指定本体空间。在一个实施方式中,接收用于搜索的目标搜索词条集。选择候选词条,其中候选词条被选择用于减少该搜索的本体空间。向计算机发送候选词条以推荐候选词条作为搜索词条。在另一个实施方式中,访问存储在一个或更多个有形介质中的文档。接收文档的目标标签集。选择多个词条,其中词条被选择用于减少文档的本体空间。向计算机发送词条以推荐该词条作为标签。

【技术实现步骤摘要】

本专利技术总体上涉及词法(lexigraphical)分析,更具体地说,涉及推荐词条以指定本体空间
技术介绍
本申请要求David Marvit等人于2007年10月5日提交的专利技术名称为“Techniques for Improved Tagging”的美国临时申请60/977,934的优先权。尽管数据语料库(corpus)可以保存大量信息,但是要找出相关信息可能仍然很困难。可以对文档进行标记以便于搜索相关信息。然而,在特定情形中,已知的文档标记技术在定位信息方面不是很有效。类似的是,已知的搜索技术在定位相关信息方面也不是很有效。附图说明图1例示了选择文档的标签的系统的一个实施方式;图2例示了可以与图1的系统一起使用的亲和度(affinity)模块的一个实施方式;图3例示了记录基本亲和度的亲和度矩阵的实施例;图4例示了记录有向亲和度的亲和度矩阵的实施例;图5例示了记录平均亲和度的亲和度矩阵的实施例;图6例示了亲和度图的实施例;图7例示了可以与图1的系统一起使用的聚类模块的一个实施方式;图8例示了可以与图1的系统一起使用的本体(ontology)特征模块的一个实施方式;图9例示了可以与图1的系统一起使用的标记模块的一个实施方式;-->图10例示了用于确定话题的统计分布的方法的实施例;图11例示了用于通过分析文档的段落来向该文档指配标签的方法的实施例;以及图12例示了用于响应于所选择的标签来指配标签的方法的实施例。具体实施方式图1例示了选择文档的标签的系统10的一个实施方式。标签可以是例如作为元数据指配给文档的一个或更多个词语。标签可以用来方便电子文档的搜索过程。在具体实施方式中,可通过用于减少文档所在的本体空间的标签来对文档进行标记。使用这些标签可以更容易地检索文档。在具体实施方式中,在给定一个文档标签的情况下,可以推荐减少文档所在的本体空间的其他标签。在具体实施方式中,系统10响应于例如由用户选择的目标标签来指配标签。在这些实施方式中,系统10推荐文档标签。所推荐的标签可以与目标标签具有较高的亲和度,并与其它推荐标签具有较低的亲和度,以减少文档的本体空间。系统10可接收各推荐标签的选项,并且可以响应于该选项来推荐更多的标签。一旦选定了最终标签,系统10就会向文档指配该最终标签。本实施方式用来向不包括文本的文档和包括文本的文档指配标签。在具体实施方式中,对于给定的词语子集和词典D,可以基于特定反向索引(inverted index)II计算有向亲和度,其中索引II包括例如针对词句wi和词句wj的条目I(wi)和I(wj)。一般来说,反向索引是储存从词条(term)到其位置(即,呈现词条的同现语境)的映射的索引数据结构。对于D中的每对词语wi和wj,DA(i,j)可以被定义为II中的条目I(wi)和I(wj)的合取(conjunction)除以I(wi)的数目值。一般来说,DA(i,j)无需等于DA(j,i)。可以以任何合适的方式(例如,行方式)储存结果,其中储存D(1,i),接着存储D(2,j),以此类推。对于每行i,可以存储|I(wi)|,接着是与wj的合取的基数(cardinality)。在具体实施方式中,可以按三个阶段计算有向亲和度。在该实施方-->式中,每一个字典词条都被指配了唯一的整数识别符。反向索引的条目对应于该整数识别符。在阶段0中,读取对应于D的II条目。对于参数(s,o)来说,仅保留具有ks+o形式的要素识别符。值ks+o限定要检查的II条目的子集。按这种方式,可以并行计算有向亲和度。作为一个实施例,根据参数s的结果,o(1,0)等于根据参数(3,0)、(3,1)、(3,2)合并计算获得的结果。该步骤允许计算用于很大反向索引的DA表。在阶段1中,仅针对DA(i,j)以行方式计算合取。在阶段2中,读取计算出的上三角UT DA矩阵。据此,获取下三角部分,作为UT的转置。在具体实施方式中,可以将相同维的多个DA阵列合并成单一阵列。可以将大的II上的DA阵列计算为具有参数(s,i)的sumi=0..(s-1)DA。可以利用计算出的合取来存储附加信息,以便计算有向亲和度。在具体情况下,可以存储II条目的基数。在具体实施方式中,可以按行方式存储DA,这样AA条目的计算可以与DA条目的计算并行进行。具体来说,可以通过在从磁盘中读取DA时对DA的行进行求和并且最后用词典条目的数量将其归一化而生成AA。在所示实施方式中,系统10包括:客户端20、服务器22以及存储器24。客户端20允许用户与服务器22通信,以使生成语言的本体。客户端20可以向服务器22发送用户输入,并且可以向用户提供(例如,显示或打印)服务器输出。服务器系统24管理用于生成语言的本体的应用。存储器24存储服务器系统24使用的数据。在所示实施方式中,存储器24存储有页面50和记录54。页面50(或文档或同现语境)可以指词语的集合。页面50的示例包括:文档的一个或更多个页面、一个或更多个文档、一本或更多本书、一个或更多个网页、信件(例如,电子邮件或即时消息)和/或其它词语的集合。可以由页面识别符来识别页面50。页面50可以以电子方式存储在一种或更多种有形计算机可读介质中。页面50可以与任何合适的内容相关联,例如,文本(如字符、词语和/或数字)、图像(如图形、照片或视频)、音-->频(如录音或计算机生成的声音)和/或软件程序。在具体实施方式中,一组页面50可以属于一个语料库。语料库可以与特定主题、团体、组织或其它实体相关联。记录54描述页面50。在该实施方式中,记录54包括:索引58、反向索引62、本体66、以及群集67。索引58包括索引列表,其中,页面50的索引列表指示页面50的词语。反向索引62包括反向索引列表,其中,词语(或词语集)的反向索引列表指示包括该词语(或词语集)的页面50。在一个实施例中,列表Wi包括含有词语wi的页面50的页面识别符。列表Wi&Wj包括含有词语wi和wj两者的合取(conjunction)页面50的页面识别符。列表Wi+Wj包括含有词语wi和wj中的任一个的析取(disjunction)页面50的页面识别符。P(Wi)是Wi的页面50的数量,即,包括词语wi的页面50的数量。在一个实施方式中,可以将列表(如索引列表或反向索引列表)存储为二值判决图本文档来自技高网...

【技术保护点】
一种方法,该方法包括以下步骤: 访问存储在一个或更多个有形介质中的文档; 接收所述文档的目标标签集; 选择多个词条,词条被选择用于缩小所述文档的本体空间;以及 向计算机发送所述词条以推荐所述词条作为标签。

【技术特征摘要】
US 2007-10-5 60/977,934;US 2008-10-1 12/243,0501、一种方法,该方法包括以下步骤:
访问存储在一个或更多个有形介质中的文档;
接收所述文档的目标标签集;
选择多个词条,词条被选择用于缩小所述文档的本体空间;以及
向计算机发送所述词条以推荐所述词条作为标签。
2、根据权利要求1所述的方法,所述选择多个词条的步骤还包括:
根据亲和度来选择所述多个词条,词条与目标标签具有较高亲和度,
而与其他词条具有较低亲和度。
3、根据权利要求1所述的方法,该方法还包括:
接收所述推荐词条的一个或更多个词条的选择;
将一个或更多个所选词条添加到所述目标标签集;以及
根据所述目标标签集来选择多个后续词条。
4、根据权利要求1所述的方法,该方法还包括:
接收所述推荐词条的一个或更多个词条的选择;以及
选择与一个或更多个所选词条具有较高亲和度的多个后续词条。
5、根据权利要求1所述的方法,该方法还包括:
接收所述推荐词条的一个或更多个词条的选择;
识别一个或更多个淘汰词条;以及
选择与一个或更多个淘汰词条具有较低亲和度的多个后续词条。
6、根据权利要求1所述的方法,所述访问所述文档的目标标签集的
步骤还包括:
从由下述源构成的组中选择的源接收所述目标标签集的目标标签:
用户输入;和
计算机分析;以及
记录所述目标标签的源。
7、根据权利要求1所述的方法,该方法还包括:
建立所述目标标签集的各目标标签的源;
检索多个搜索结果,该搜索结果与目标标签相关联;以及
根据所述目标标签的源对所述搜索结果进行排位。
8、根据权利要求1所述的方法,该方法还包括:
从所述目标标签集中去除一个或更多个冗余词条。
9、根据权利要求1所述的方法,该方法还包括:
启动对图形要素的显示,所述图形要素被配置成接收所请求的标签
相对于特定词条应该具有的关联度。
10、根据权利要求1所述的方法,该方法还包括通过以下步骤根据
亲和度来选择所述多个词条:
从对应于目标标签的群集中识别与所述目标标签具有较高亲和度的
一个或更多个词条。
11、根据权利要求1所述的方法,该方法还包括根据亲和度来选择
所述多个词条,所述亲和度还包括从由亲和度、平均亲和度、有向亲和
度和差分亲和度所构成的组中选出的一个或更多个亲和度。
12、一个或更多个编码有软件的计算机可读有形介质,在执行该软
件时可进行如下操作:
访问存储在一个或更多个有形介质中的文档;
接收所述文档的目标标签集;
选择多个词条,词条被选择用于减少所述文档的本体空间;以及
向计算机发送所述词条以推荐所述词条作为标签。
13、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可通过以下步骤来选择多个词条:
根据亲和度来选择所述多个词条,词条与目标标签具有较高亲和度,
而与其他词条具有较低亲和度。
14、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可进行如下操作:
接收所述推荐词条的一个或更多个词条的选择;
将一个或更多个所选词条添加到所述目标标签集;以及
根据所述目标标签集来选择多个后续词条。
15、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可进行如下操作:
接收所述推荐词条的一个或更多个词条的选择;以及
选择与一个或更多个所选词条具有较高亲和度的多个后续词条。
16、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可进行如下操作:
接收所述推荐词条的一个或更多个词条的选择;
识别一个或更多个淘汰词条;以及
选择与一个或更多个淘汰词条具有较低亲和度的多个后续词条。
17、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可通过以下步骤访问所述文档的目标标签集:
从由以下源构成的组中选择的源接收所述目标标签集的目标标签:
用户输入;和
计算机分析;以及
记录所述目标标签的源。
18、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可进行如下操作:
建立所述目标标签集的各目标标签的源;
检索多个搜索结果,该搜索结果与目标标签相关联;以及
根据所述目标标签的源对所述搜索结果进行排位。
19、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可进行如下操作:
从所述目标标签集中去除一个或更多个冗余词条。
20、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可进行如下操作:
启动对图形要素的显示,所述图形要素被配置成接收所请求的标签
相对于特定词条应该具有的关联度。
21、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可通过以下步骤根据亲和度来选择所述多个词条:
从对应于目标标签的群集中,识别与所述目标标签具有较高亲和度
的一个或更多个词条。
22、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可根据亲和度选择所述多个词条,所述亲和度还包括从由亲和度、平
均亲和度、有向亲和度以及差分亲和度所构成的组中选择的一个或更多
个亲和度。
23、一种方法,该方法...

【专利技术属性】
技术研发人员:大卫马尔维特贾瓦哈拉贾殷斯特吉奥斯斯特吉奥亚历克斯吉尔曼B托马斯阿德勒约翰J西多罗维奇雅尼斯拉布罗艾伯特莱因哈德
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1