一种自动给文档添加标签的方法和装置制造方法及图纸

技术编号:8907104 阅读:218 留言:0更新日期:2013-07-11 04:46
本发明专利技术提出一种自动给文档添加标签的方法和装置,其中方法包括:确定多个候选标签词;确定包括多个文本的语料;从语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定在出现特征词的情况下同时出现候选标签词的共现概率;从文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;在语料中,针对候选标签词,统计候选标签词与文档中出现的所有特征词的加权共现概率;选择加权共现概率高的候选标签词作为为文档添加的标签词。本发明专利技术能够实现为文档添加标签的智能化,该标签不限于文档中出现的关键词。

【技术实现步骤摘要】

本专利技术涉及互联网文档
,尤其涉及一种自动给文档添加标签的方法和装置
技术介绍
标签(tag)是互联网内容组织方式,是与文档相关性很强的关键字,它能够对文档内容进行简单描述和分类,以便于检索和分享。目前,为文档添加标签的方法主要有三种:1)人工标签:人工为文档指定特定标签;2)关键词标签:通过分析文档内容,自动提取文档中的重要关键词作为标签;3)社会化标签:由用户为自己的文档添加标签。这三种方法都存在缺点,比如,I)人工标签:不能自动对大规模文档添加标签;2)关键词标签:只能用文档中出现的关键词作为标签,而并非关键词都适合做标签;3)社会化标签:需要用户自己给文档加标签,由于用户标准不一致,导致标签混乱。
技术实现思路
本专利技术提供了一种自动给文档添加标签的方法和装置,能够实现为文档添加标签的智能化,该标签不限于文档中出现的关键词。本专利技术的技术方案是这样实现的:一种自动给文档添加标签的方法,包括:确定对应所述文档的多个候选标签词;确定包括多个文本的语料;从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共本文档来自技高网...
一种自动给文档添加标签的方法和装置

【技术保护点】
一种自动给文档添加标签的方法,其特征在于,所述方法包括:确定对应所述文档的多个候选标签词;确定包括多个文本的语料;从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率;从所述文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;在所述语料中,针对候选标签词,统计候选标签词与所述文档中出现的所有特征词的加权共现概率;选择加权共现概率高的候选标签词作为为文档添加的标签词。

【技术特征摘要】

【专利技术属性】
技术研发人员:贺翔王业焦峰
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1