通过分析文档的段落来选择该文档的标签制造技术

技术编号:2915872 阅读:186 留言:0更新日期:2012-04-11 18:40
通过分析文档的段落来选择该文档的标签。在一个实施方式中,为文档指配标签包括访问该文档,其中该文档包括含有词语的文本单元。针对各文本单元执行以下步骤:文本单元的词语子集被选作候选标签、在所述候选标签之间建立关联性,以及根据所建立的关联性来选择特定候选标签以产生用于该文本单元的候选标签集。确定各候选标签集的候选标签和其他候选标签集的候选标签之间的关联性。根据所确定的关联性,为该文档指配至少一个候选标签。

【技术实现步骤摘要】

本专利技术总体上涉及词法(lexigraphical)分析,更具体地说,涉及通过分析文档的段落来选择该文档的标签
技术介绍
本申请要求David Marvit等人于2007年10月5日提交的、专利技术名称为“Tagging Based on Paragraph and Category Analysis(基于段落和类别分析进行标记)”的美国临时申请60/977,877的优先权。尽管数据语料库(corpus)可以保存大量信息,但是要找出相关信息可能仍然很困难。可以对文档进行标记以便于搜索相关信息。然而,在特定情形中,已知的文档标记技术在定位信息方面不是很有效。类似地,已知的搜索技术在定位相关信息方面也不是很有效。附图说明图1例示了选择文档的标签的系统的一个实施方式;图2例示了可以与图1的系统一起使用的亲和度(affinity)模块的一个实施方式;图3例示了记录基本亲和度的亲和度矩阵的实施例;图4例示了记录有向亲和度的亲和度矩阵的实施例;图5例示了记录平均亲和度的亲和度矩阵的实施例;图6例示了亲和度图的实施例;图7例示了可以与图1的系统一起使用的聚类模块的一个实施方式;图8例示了可以与图1的系统一起使用的本体(ontology)特征模块的一个实施方式;图9例示了可以与图1的系统一起使用的标记模块的一个实施方式;-->图10例示了用于确定话题的统计分布的方法的实施例;图11例示了用于通过分析文档的段落来向该文档指配标签的方法的实施例;以及图12例示了用于响应于所选择的标签来指配标签的方法的实施例。具体实施方式概述在一个实施方式中,向文档指配标签包括访问该文档,其中该文档包括含有词语(word)的文本单元。针对各文本单元执行以下步骤:文本单元的词语子集被选作候选标签、在这些候选标签中建立关联性,以及根据所建立的关联性的程度来选择特定候选标签以产生该文本单元的的候选标签集。确定各候选标签集的候选标签和其他候选标签集的候选标签之间的关联性。根据确定的关联性将至少一个候选标签指配给文档。例如,可以通过选择与文档最相关的特定数量的候选标签并将这些候选标签指配给该文档来指配标签集。示例性实施方式图1例示了选择文档的标签的系统10的一个实施方式。在具体实施方式中,系统10通过分析文档的文本单元(例如,段落)来选择标签。在这些实施方式中,系统10根据文本单元的词语来识别用于各文本单元的候选标签集。系统10接着对不同候选标签集中的候选标签的关联性进行比较,并根据该关联性来选择该文档的标签。在具体实施方式中,对于给定的词语子集和词典D,可以基于特定反向索引(inverted index)II计算有向亲和度,其中索引II包括例如针对词句wi和词句wj的条目I(wi)和I(wj)。一般来说,反向索引是储存从词条(term)到其位置(即,呈现词条的同现语境)的映射的索引数据结构。对于D中的每对词语wi和wj,DA(i,j)可以被定义为II中的条目I(wi)和I(wj)的合取(conjunction)除以I(wi)的数目值。一般来说,DA(i,j)无需等于DA(j,i)。可以以任何合适的方式(例如,行方式)储存结果,其中储存D(1,i),接着存储D(2,j),以此类推。对于每行i,可以存储|I(wi)|,-->接着是与wj的合取的基数(cardinality)。在具体实施方式中,可以按三个阶段计算有向亲和度。在该实施方式中,每一个字典词条都被指配了唯一的整数识别符。反向索引的条目对应于该整数识别符。在阶段0中,读取对应于D的II条目。对于参数(s,o)来说,仅保留具有ks+o形式的要素识别符。值ks+o限定要检查的II条目的子集。按这种方式,可以并行计算有向亲和度。作为一个实施例,根据参数s的结果,o(1,0)等于根据参数(3,0)、(3,1)、(3,2)合并计算获得的结果。该步骤允许计算用于很大反向索引的DA表。在阶段1中,仅针对DA(i,j)以行方式计算合取。在阶段2中,读取计算出的上三角UT DA矩阵。据此,获取下三角部分,作为UT的转置。在具体实施方式中,可以将相同维的多个DA阵列合并成单一阵列。可以将大的II上的DA阵列计算为具有参数(s,i)的sumi=0..(s-1)DA。可以利用计算出的合取来存储附加信息,以便计算有向亲和度。在具体情况下,可以存储II条目的基数。在具体实施方式中,可以按行方式存储DA,这样AA条目的计算可以与DA条目的计算并行进行。具体来说,可以通过在从磁盘中读取DA时对DA的行进行求和并且最后用词典条目的数量将其归一化而生成AA。在所示实施方式中,系统10包括:客户端20、服务器22以及存储器24。客户端20允许用户与服务器22通信,以使生成语言的本体。客户端20可以向服务器22发送用户输入,并且可以向用户提供(例如,显示或打印)服务器输出。服务器系统24管理用于生成语言的本体的应用。存储器24存储服务器系统24使用的数据。在所示实施方式中,存储器24存储有页面50和记录54。页面50(或文档或同现语境)可以指词语的集合。页面50的示例包括:文档的一个或更多个页面、一个或更多个文档、一本或更多本书、一个或更多个网页、信件(例如,电子邮件或即时消息)和/或其它词语的集合。可以由页面识别符来识别页面50。页面50可以以电子方式存储在一种或更-->多种有形计算机可读介质中。页面50可以与任何合适的内容相关联,例如,文本(如字符、词语和/或数字)、图像(如图形、照片或视频)、音频(如录音或计算机生成的声音)和/或软件程序。在具体实施方式中,一组页面50可以属于一个语料库。语料库可以与特定主题、团体、组织或其它实体相关联。记录54描述页面50。在该实施方式中,记录54包括:索引58、反向索引62、本体66、以及群集67。索引58包括索引列表,其中,页面50的索引列表指示页面50的词语。反向索引62包括反向索引列表,其中,词语(或词语集)的反向索引列表指示包括该词语(或词语集)的页面50。在一个实施例中,列表Wi包括含有词语wi的页面50的页面识别符。列表Wi&Wj包括含有词语wi和wj两者的合取(conjunction)页面50的页面识别符。列表Wi+Wj包括含有词语wi和wj中的任一个的析取(disjunction)页面50的页面识别符。P(Wi)是Wi的本文档来自技高网...

【技术保护点】
一种方法,该方法包括以下步骤: 访问储存在一个或更多个有形介质中的文档,该文档包括含有多个词语的多个文本单元,所述多个词语包括多个关键词; 针对各文本单元执行以下步骤: 在各文本单元的所述关键词之间建立关联性;以及  根据所建立的关联性来选择一个或更多个关键词作为一个或更多个候选标签,以产生所述各文本单元的候选标签集;以及 确定各候选标签集的候选标签和其他候选标签集的候选标签之间的关联性;以及 根据所确定的关联性来为所述文档指配至少一个候选标 签。

【技术特征摘要】
US 2007-10-5 60/977,877;US 2008-10-1 12/242,9841.一种方法,该方法包括以下步骤:
访问储存在一个或更多个有形介质中的文档,该文档包括含有多个
词语的多个文本单元,所述多个词语包括多个关键词;
针对各文本单元执行以下步骤:
在各文本单元的所述关键词之间建立关联性;以及
根据所建立的关联性来选择一个或更多个关键词作为一个或
更多个候选标签,以产生所述各文本单元的候选标签集;以及
确定各候选标签集的候选标签和其他候选标签集的候选标签之间的
关联性;以及
根据所确定的关联性来为所述文档指配至少一个候选标签。
2.如权利要求1所述的方法,该方法还包括:
根据排位技术对所述各文本单元的多个词语进行排位;以及
选择一个或更多个高排位的词语作为所述各文本单元的关键词。
3.如权利要求1所述的方法,所述根据关联性选择各文本单元的一
个或更多个关键词的步骤还包括:
对所述关键词进行聚类以产生多个群集;以及
指明群集的关键词充分相关。
4.如权利要求1所述的方法,所述针对各文本单元执行以下步骤的
步骤还包括:
根据排位技术对所述关键词进行排位;以及
选择最高排位的关键词作为根标签。
5.如权利要求1所述的方法,所述针对各文本单元执行以下步骤的
步骤还包括:
移除与所述其他候选标签不充分相关的一个或更多个候选标签。
6.如权利要求1所述的方法,所述确定各候选标签集的候选标签和
其他候选标签集的候选标签之间的关联性的步骤还包括:
生成所述各候选标签集的候选标签的概况,所述概况指示所述候选
标签和所述其他候选标签集的候选标签之间的关联性。
7.如权利要求1所述的方法,所述确定各候选标签集的候选标签和
其他候选标签集的候选标签之间的关联性的步骤还包括通过以下步骤生
成所述各候选标签集的候选标签的概况:
确定包括所述候选标签的候选标签集的数量;以及
根据所述数量生成所述概况。
8.如权利要求1所述的方法,所述确定各候选标签集的候选标签和
其他候选标签集的候选标签之间的关联性的步骤还包括通过以下步骤生
成所述各候选标签集的候选标签的概况,所述候选标签与权重相关联,
所述各候选标签集具有第一根标签:
针对具有第二根标签的各其他候选标签集执行以下步骤以产生多个
关联值:
建立在给定所述第一根标签的情况下所述第二根标签的亲和
度;以及
通过将所述权重与所述亲和度相乘来计算关联值;以及
根据所述多个关联值来生成所述概况。
9.如权利要求1所述的方法,所述确定各候选标签集的候选标签和
其他候选标签集的候选标签之间的关联性的步骤还包括通过以下步骤来
生成所述各候选标签集的第一候选标签的概况:
针对各其他候选标签集执行以下步骤:
针对所述其他候选标签集的第二候选标签,建立在给定所述第
一候选标签的情况下所述第二候选标签的亲和度,以产生多个亲和度;
以及
合并所述亲和度;以及
根据合并后的亲和度来生成所述概况。
10.如权利要求1所述的方法,所述根据所确定的关联性来为所述
文档指配至少一个候选标签的步骤还包括:
指配与所述其他候选标签最相关的至少一个候选标签。
11.一种或更多种编码了软件的计算机可读有形介质,其在被执行
时:
访问储存在一个或更多个有形介质中的文档,该文档包括含有多个
词语的多个文本单元,所述多个词语包括多个关键词;
针对各文本单元执行以下步骤:
在各文本单元的所述关键词之间建立关联性;以及
根据所建立的关联性来选择一个或更多个关键词作为一...

【专利技术属性】
技术研发人员:大卫马尔维特贾瓦哈拉贾殷斯特吉奥斯斯特吉奥亚历克斯吉尔曼B托马斯阿德勒约翰J西多罗维奇雅尼斯拉布罗
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1