【技术实现步骤摘要】
本专利技术总体上涉及词法(lexigraphical)分析,更具体地说,涉及通过分析文档的段落来选择该文档的标签。
技术介绍
本申请要求David Marvit等人于2007年10月5日提交的、专利技术名称为“Tagging Based on Paragraph and Category Analysis(基于段落和类别分析进行标记)”的美国临时申请60/977,877的优先权。尽管数据语料库(corpus)可以保存大量信息,但是要找出相关信息可能仍然很困难。可以对文档进行标记以便于搜索相关信息。然而,在特定情形中,已知的文档标记技术在定位信息方面不是很有效。类似地,已知的搜索技术在定位相关信息方面也不是很有效。附图说明图1例示了选择文档的标签的系统的一个实施方式;图2例示了可以与图1的系统一起使用的亲和度(affinity)模块的一个实施方式;图3例示了记录基本亲和度的亲和度矩阵的实施例;图4例示了记录有向亲和度的亲和度矩阵的实施例;图5例示了记录平均亲和度的亲和度矩阵的实施例;图6例示了亲和度图的实施例;图7例示了可以与图1的系统一起使用的聚类模块的一个实施方式;图8例示了可以与图1的系统一起使用的本体(ontology)特征模块的一个实施方式;图9例示了可以与图1的系统一起使用的标记模块的一个实施方式;-->图10例示了用于确定话题的统计分布的方法的实施例;图 ...
【技术保护点】
一种方法,该方法包括以下步骤: 访问储存在一个或更多个有形介质中的文档,该文档包括含有多个词语的多个文本单元,所述多个词语包括多个关键词; 针对各文本单元执行以下步骤: 在各文本单元的所述关键词之间建立关联性;以及 根据所建立的关联性来选择一个或更多个关键词作为一个或更多个候选标签,以产生所述各文本单元的候选标签集;以及 确定各候选标签集的候选标签和其他候选标签集的候选标签之间的关联性;以及 根据所确定的关联性来为所述文档指配至少一个候选标 签。
【技术特征摘要】
US 2007-10-5 60/977,877;US 2008-10-1 12/242,9841.一种方法,该方法包括以下步骤:
访问储存在一个或更多个有形介质中的文档,该文档包括含有多个
词语的多个文本单元,所述多个词语包括多个关键词;
针对各文本单元执行以下步骤:
在各文本单元的所述关键词之间建立关联性;以及
根据所建立的关联性来选择一个或更多个关键词作为一个或
更多个候选标签,以产生所述各文本单元的候选标签集;以及
确定各候选标签集的候选标签和其他候选标签集的候选标签之间的
关联性;以及
根据所确定的关联性来为所述文档指配至少一个候选标签。
2.如权利要求1所述的方法,该方法还包括:
根据排位技术对所述各文本单元的多个词语进行排位;以及
选择一个或更多个高排位的词语作为所述各文本单元的关键词。
3.如权利要求1所述的方法,所述根据关联性选择各文本单元的一
个或更多个关键词的步骤还包括:
对所述关键词进行聚类以产生多个群集;以及
指明群集的关键词充分相关。
4.如权利要求1所述的方法,所述针对各文本单元执行以下步骤的
步骤还包括:
根据排位技术对所述关键词进行排位;以及
选择最高排位的关键词作为根标签。
5.如权利要求1所述的方法,所述针对各文本单元执行以下步骤的
步骤还包括:
移除与所述其他候选标签不充分相关的一个或更多个候选标签。
6.如权利要求1所述的方法,所述确定各候选标签集的候选标签和
其他候选标签集的候选标签之间的关联性的步骤还包括:
生成所述各候选标签集的候选标签的概况,所述概况指示所述候选
标签和所述其他候选标签集的候选标签之间的关联性。
7.如权利要求1所述的方法,所述确定各候选标签集的候选标签和
其他候选标签集的候选标签之间的关联性的步骤还包括通过以下步骤生
成所述各候选标签集的候选标签的概况:
确定包括所述候选标签的候选标签集的数量;以及
根据所述数量生成所述概况。
8.如权利要求1所述的方法,所述确定各候选标签集的候选标签和
其他候选标签集的候选标签之间的关联性的步骤还包括通过以下步骤生
成所述各候选标签集的候选标签的概况,所述候选标签与权重相关联,
所述各候选标签集具有第一根标签:
针对具有第二根标签的各其他候选标签集执行以下步骤以产生多个
关联值:
建立在给定所述第一根标签的情况下所述第二根标签的亲和
度;以及
通过将所述权重与所述亲和度相乘来计算关联值;以及
根据所述多个关联值来生成所述概况。
9.如权利要求1所述的方法,所述确定各候选标签集的候选标签和
其他候选标签集的候选标签之间的关联性的步骤还包括通过以下步骤来
生成所述各候选标签集的第一候选标签的概况:
针对各其他候选标签集执行以下步骤:
针对所述其他候选标签集的第二候选标签,建立在给定所述第
一候选标签的情况下所述第二候选标签的亲和度,以产生多个亲和度;
以及
合并所述亲和度;以及
根据合并后的亲和度来生成所述概况。
10.如权利要求1所述的方法,所述根据所确定的关联性来为所述
文档指配至少一个候选标签的步骤还包括:
指配与所述其他候选标签最相关的至少一个候选标签。
11.一种或更多种编码了软件的计算机可读有形介质,其在被执行
时:
访问储存在一个或更多个有形介质中的文档,该文档包括含有多个
词语的多个文本单元,所述多个词语包括多个关键词;
针对各文本单元执行以下步骤:
在各文本单元的所述关键词之间建立关联性;以及
根据所建立的关联性来选择一个或更多个关键词作为一...
【专利技术属性】
技术研发人员:大卫马尔维特,贾瓦哈拉贾殷,斯特吉奥斯斯特吉奥,亚历克斯吉尔曼,B托马斯阿德勒,约翰J西多罗维奇,雅尼斯拉布罗,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。