一种自动给文档添加标签的方法和装置制造方法及图纸

技术编号:8907104 阅读:191 留言:0更新日期:2013-07-11 04:46
本发明专利技术提出一种自动给文档添加标签的方法和装置,其中方法包括:确定多个候选标签词;确定包括多个文本的语料;从语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定在出现特征词的情况下同时出现候选标签词的共现概率;从文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;在语料中,针对候选标签词,统计候选标签词与文档中出现的所有特征词的加权共现概率;选择加权共现概率高的候选标签词作为为文档添加的标签词。本发明专利技术能够实现为文档添加标签的智能化,该标签不限于文档中出现的关键词。

【技术实现步骤摘要】

本专利技术涉及互联网文档
,尤其涉及一种自动给文档添加标签的方法和装置
技术介绍
标签(tag)是互联网内容组织方式,是与文档相关性很强的关键字,它能够对文档内容进行简单描述和分类,以便于检索和分享。目前,为文档添加标签的方法主要有三种:1)人工标签:人工为文档指定特定标签;2)关键词标签:通过分析文档内容,自动提取文档中的重要关键词作为标签;3)社会化标签:由用户为自己的文档添加标签。这三种方法都存在缺点,比如,I)人工标签:不能自动对大规模文档添加标签;2)关键词标签:只能用文档中出现的关键词作为标签,而并非关键词都适合做标签;3)社会化标签:需要用户自己给文档加标签,由于用户标准不一致,导致标签混乱。
技术实现思路
本专利技术提供了一种自动给文档添加标签的方法和装置,能够实现为文档添加标签的智能化,该标签不限于文档中出现的关键词。本专利技术的技术方案是这样实现的:一种自动给文档添加标签的方法,包括:确定对应所述文档的多个候选标签词;确定包括多个文本的语料;从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率;从所述文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;在所述语料中,针对候选标签词,统计候选标签词与所述文档中出现的所有特征词的加权共现概率;选择加权共现概率高的候选标签词作为为文档添加的标签词。一种自动给文档添加标签的装置,包括:候选标签词确定模块,用于确定对应所述文档的多个候选标签词;共现概率确定模块,用于确定包括多个文本的语料,从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率;权值计算模块,用于从所述文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;加权共现概率统计模块,用于在所述语料中,针对候选标签词,统计候选标签词与所述文档中出现的所有特征词的加权共现概率;标签词添加模块,用于选择加权共现概率高的候选标签词作为为文档添加的标签ο可见,本专利技术提出的自动给文档添加标签的方法和装置,能够统计语料中特征词与候选标签词之间的共现概率,将共现概率转换为特征词对候选标签词的投票权,最终将得票最多的候选标签词作为为文档添加的标签词,从而实现了为文档添加标签的智能化,并且该标签不限于文档中所出现的词。附图说明图1为本专利技术提出的自动给文档添加标签的方法流程图;图2为本专利技术提出的自动给文档添加标签的装置结构示意图。具体实施例方式本专利技术提出一种自动给文档添加标签的方法,如图1为该方法流程图,包括:步骤101:确定对应所述文档的多个候选标签词;步骤102:确定包括多个文本的语料;步骤103:从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率;步骤104:从所述文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;步骤105:在所述语料中,针对候选标签词,统计候选标签词与所述文档中出现的所有特征词的加权共现概率;选择加权共现概率高的候选标签词作为为文档添加的标签 ο上述步骤103中,共现概率为P (XI Y),其中,X为候选标签词,Y为语料中出现的特征词;可以采用多种方式确定P(XlY):第一种,P(X|Y) =X和Y在同一文本中同时出现的次数/Y在语料中出现的次数;第二种,P(Z|7)7),其中,H(X,Y)为 X 和 Y 的联合熵,I (X,Y)为X和Y的互信息,H(X)为X的信息熵,H(Y)为Y的信息熵;第三种,利用类似wordnet的词库资源进行确定。上述步骤104中,针对每个提取出的特征词,可以根据该特征词在所述文档中出现的次数和所述语料中出现该特征词的文本数计算该特征词的权值。所述文档中提取出的特征词Y的权值为WY,Wy的计算方式可以为:WY等于Y在文档中出现的次数与所述语料中出现Y的文本数的乘积。η上述步骤105中,加权共现概率为尽,其中,Yi为文档中出现的 i=\特征词,为Yi的权值,η为文档中出现的特征词的个数。上述步骤105中,可以针对与文档中出现的一个以上特征词存在共现关系的候选标签词统计加权共现概率Ρχ,而无需对所有候选标签词都统计Ρχ。以下举具体的实施例详细介绍。实施例一:步骤1:准备标签词集根据需求,获取对应于文档的多个候选标签词,构成标签词集。例如,需要对影视类内容的文档添加标签,则标签词集可以包括影视类型、明星等标签词。步骤2:准备语料可以从互联网上收集相关的多个文本作为语料,用来统计词之间的共现关系。步骤3:从语料中提取特征词对语料中的文本进行切词,统计各个词的词频(TF, term frequency),去掉高频词、停用词和低频词,将剩余的常用词作为特征词。步骤4:统计特征词和候选标签词的共现概率P (X I Y)P(X|Y) =X和Y在同一文本中同时出现的次数/Y在语料中出现的次数;其中,X为候选标签词,Y为特征词。步骤5:为文档自动添加标签词,具体步骤如下:I)对文档进行切词2)通过切词结果提取文档中出现的所有特征词,针对每个提取出的特征词,计算特征词Y的权值Wy = TFX IDF,其中,TF为Y在文档中出现的次数,IDF为语料中出现Y的文本数。3)根据步骤4中统计出的共现概率,提取与至少一个特征词存在共现关系(即共现概率不为O)的候选标 签词;4)针对提取出的候选标签词,统计各个候选标签词与文档中出现的所有特征词的 η加权共现概率尽=ΣΡ(ΧΚ)χ%,其中,Yi为文档中出现的特征词,%为Yi的权值,η为文档中出现的特征词的个数。5)对所有提取出的候选标签词按照Px由高到低的顺序进行排序,选择Px最高的一个或几个候选标签词作为为文档添加的标签词。在本步骤中,第3)步首先提取一部分候选标签词,之后计算这些提取的候选标签词的加权共现概率,这种方式是为了加快计算速度、节约系统资源;本专利技术也可以对所有候选标签词都计算加权共现概率,对于与所有特征词均不存在共现关系的候选标签词,其计算出的加权共现概率Px = 0,第5)步排序后,该候选标签词将被排在最末端。本专利技术的其他实施例中,可以采用其他的方式统计特征词和候选标签词的共现概率 P (XI Y)。例如,采用I Y) == π ΥΛ 、Υ)π γ νΛ进行计算,其中,H (X,Y)为X和Y的联合熵,I (X,Y)为X和Y的互信息,H(X)为X的信息熵,H(Y)为Y的信息熵;或者,也可以采用类似wordnet的词库资源确定特征词和候选标签词的关系。本专利技术还提出一种自动给文档添加标签的装置,如图2为该装置的结构示意图,包括:候选标签词确定模块201,用于确定对应所述文档的多个候选标签词;共现概率确定模块202,用于确定包括多个文本的语料,从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率;权值计算模块203,用于从所述文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;加权共现概率统计模块204,用于在所述语料中,针对候选标签词,统计候选标签词与所述文档中出现的所有特征词的加权共现概本文档来自技高网...
一种自动给文档添加标签的方法和装置

【技术保护点】
一种自动给文档添加标签的方法,其特征在于,所述方法包括:确定对应所述文档的多个候选标签词;确定包括多个文本的语料;从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率;从所述文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;在所述语料中,针对候选标签词,统计候选标签词与所述文档中出现的所有特征词的加权共现概率;选择加权共现概率高的候选标签词作为为文档添加的标签词。

【技术特征摘要】

【专利技术属性】
技术研发人员:贺翔王业焦峰
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1