【技术实现步骤摘要】
本专利技术总体上涉及词法(lexigraphical)分析,更具体地说,涉及推荐词条以指定本体空间。
技术介绍
本申请要求David Marvit等人于2007年10月5日提交的专利技术名称为“Techniques for Improved Tagging”的美国临时申请60/977,934的优先权。尽管数据语料库(corpus)可以保存大量信息,但是要找出相关信息可能仍然很困难。可以对文档进行标记以便于搜索相关信息。然而,在特定情形中,已知的文档标记技术在定位信息方面不是很有效。类似的是,已知的搜索技术在定位相关信息方面也不是很有效。附图说明图1例示了选择文档的标签的系统的一个实施方式;图2例示了可以与图1的系统一起使用的亲和度(affinity)模块的一个实施方式;图3例示了记录基本亲和度的亲和度矩阵的实施例;图4例示了记录有向亲和度的亲和度矩阵的实施例;图5例示了记录平均亲和度的亲和度矩阵的实施例;图6例示了亲和度图的实施例;图7例示了可以与图1的系统一起使用的聚类模块的一个实施方式;图8例示了可以与图1的系统一起使用的本体(ontology)特征模块的一个实施方式;图9例示了可以与图1的系统一起使用的标记模块的一个实施方式;-->图10例示了用于确定话题的统计分布的方法的实施例;图11例示了用于通过分析文档的段落来向该文档指配标签的方法的实施例;以及 ...
【技术保护点】
一种方法,该方法包括以下步骤: 访问存储在一个或更多个有形介质中的文档; 接收所述文档的目标标签集; 选择多个词条,词条被选择用于缩小所述文档的本体空间;以及 向计算机发送所述词条以推荐所述词条作为标签。
【技术特征摘要】
US 2007-10-5 60/977,934;US 2008-10-1 12/243,0501、一种方法,该方法包括以下步骤:
访问存储在一个或更多个有形介质中的文档;
接收所述文档的目标标签集;
选择多个词条,词条被选择用于缩小所述文档的本体空间;以及
向计算机发送所述词条以推荐所述词条作为标签。
2、根据权利要求1所述的方法,所述选择多个词条的步骤还包括:
根据亲和度来选择所述多个词条,词条与目标标签具有较高亲和度,
而与其他词条具有较低亲和度。
3、根据权利要求1所述的方法,该方法还包括:
接收所述推荐词条的一个或更多个词条的选择;
将一个或更多个所选词条添加到所述目标标签集;以及
根据所述目标标签集来选择多个后续词条。
4、根据权利要求1所述的方法,该方法还包括:
接收所述推荐词条的一个或更多个词条的选择;以及
选择与一个或更多个所选词条具有较高亲和度的多个后续词条。
5、根据权利要求1所述的方法,该方法还包括:
接收所述推荐词条的一个或更多个词条的选择;
识别一个或更多个淘汰词条;以及
选择与一个或更多个淘汰词条具有较低亲和度的多个后续词条。
6、根据权利要求1所述的方法,所述访问所述文档的目标标签集的
步骤还包括:
从由下述源构成的组中选择的源接收所述目标标签集的目标标签:
用户输入;和
计算机分析;以及
记录所述目标标签的源。
7、根据权利要求1所述的方法,该方法还包括:
建立所述目标标签集的各目标标签的源;
检索多个搜索结果,该搜索结果与目标标签相关联;以及
根据所述目标标签的源对所述搜索结果进行排位。
8、根据权利要求1所述的方法,该方法还包括:
从所述目标标签集中去除一个或更多个冗余词条。
9、根据权利要求1所述的方法,该方法还包括:
启动对图形要素的显示,所述图形要素被配置成接收所请求的标签
相对于特定词条应该具有的关联度。
10、根据权利要求1所述的方法,该方法还包括通过以下步骤根据
亲和度来选择所述多个词条:
从对应于目标标签的群集中识别与所述目标标签具有较高亲和度的
一个或更多个词条。
11、根据权利要求1所述的方法,该方法还包括根据亲和度来选择
所述多个词条,所述亲和度还包括从由亲和度、平均亲和度、有向亲和
度和差分亲和度所构成的组中选出的一个或更多个亲和度。
12、一个或更多个编码有软件的计算机可读有形介质,在执行该软
件时可进行如下操作:
访问存储在一个或更多个有形介质中的文档;
接收所述文档的目标标签集;
选择多个词条,词条被选择用于减少所述文档的本体空间;以及
向计算机发送所述词条以推荐所述词条作为标签。
13、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可通过以下步骤来选择多个词条:
根据亲和度来选择所述多个词条,词条与目标标签具有较高亲和度,
而与其他词条具有较低亲和度。
14、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可进行如下操作:
接收所述推荐词条的一个或更多个词条的选择;
将一个或更多个所选词条添加到所述目标标签集;以及
根据所述目标标签集来选择多个后续词条。
15、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可进行如下操作:
接收所述推荐词条的一个或更多个词条的选择;以及
选择与一个或更多个所选词条具有较高亲和度的多个后续词条。
16、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可进行如下操作:
接收所述推荐词条的一个或更多个词条的选择;
识别一个或更多个淘汰词条;以及
选择与一个或更多个淘汰词条具有较低亲和度的多个后续词条。
17、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可通过以下步骤访问所述文档的目标标签集:
从由以下源构成的组中选择的源接收所述目标标签集的目标标签:
用户输入;和
计算机分析;以及
记录所述目标标签的源。
18、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可进行如下操作:
建立所述目标标签集的各目标标签的源;
检索多个搜索结果,该搜索结果与目标标签相关联;以及
根据所述目标标签的源对所述搜索结果进行排位。
19、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可进行如下操作:
从所述目标标签集中去除一个或更多个冗余词条。
20、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可进行如下操作:
启动对图形要素的显示,所述图形要素被配置成接收所请求的标签
相对于特定词条应该具有的关联度。
21、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可通过以下步骤根据亲和度来选择所述多个词条:
从对应于目标标签的群集中,识别与所述目标标签具有较高亲和度
的一个或更多个词条。
22、根据权利要求12所述的计算机可读有形介质,在执行所述软件
时可根据亲和度选择所述多个词条,所述亲和度还包括从由亲和度、平
均亲和度、有向亲和度以及差分亲和度所构成的组中选择的一个或更多
个亲和度。
23、一种方法,该方法...
【专利技术属性】
技术研发人员:大卫马尔维特,贾瓦哈拉贾殷,斯特吉奥斯斯特吉奥,亚历克斯吉尔曼,B托马斯阿德勒,约翰J西多罗维奇,雅尼斯拉布罗,艾伯特莱因哈德,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。