社会标签自动标注的方法以及社会标签自动标注器技术

技术编号:6982978 阅读:608 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种社会化标签自动标注的方法。该方法包括计算标签词项在文档中的频率(TF)权重,以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重,并归一化;对上述权重建立线性融合权值模型,并估计线性融合参数;以及基于线性融合模型对社会标签进行自动标注。该发明专利技术同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性,因此能够提高社会标签自动标注的准确性。

【技术实现步骤摘要】

本专利技术属于互联网信息搜索与检索领域,尤其涉及针对以文本为主要内容的网页的分类方法。
技术介绍
社会标签是一种针对文章或图片等信息的更为灵活、有趣的分类方式。用户可以为每篇文章或每张图片,或每条信息添加一个或多个标签,从而根据这些标签把这些文章或图片或信息进行分类。用户可以在系统中创建自己的标签,也可以对文章或链接使用标签来标记。简单地,用户可以把一个标签(Tag)理解为一个文章或图片的分类。标签,又被称为软分类,即根据文章或者图片或者信息的意义,由信息的组织者为信息指定一个或者多个“标签”。传统的分类,又称为硬分类,即就是网页发布文章或图片或信息时,所选择的系统现有的固定的分类。标签和硬分类相比,硬分类一般是事先预定好的,即文章或图片属于哪一个分类,事先就已经规定好了。而标签不同,它是在文章或图片完成之后,再由用户添加的。网页的社会标签标注,又名合作标签标注、社会分类法、社会标引,其是一种个人或团体将术语、名称等(也可称为“标签”)与一个在线“社会”环境中的数字资源作关联的方法。随着*吐2.0技术应用的兴起,社会标签标注因其在组织内容上的优势变得越来越流行。它可以为网络信息导航、过滤、提高网络搜索质量以及查询推荐等网络应用提供支持。但另一方面,网络上的大多网页很少甚至没有标注标签,即使是标签服务网站,如Del. icio. us也只是对网络上小部分链接进行了标注。这就给社会标签的应用带来了很大的不便。可以想象,如果能为大多网页标注社会标签,无疑会将上述的障碍扫除。因此自动化的社会标签标注,即基于已有的社会标签标注的数据对一个新的网页进行标注,正得到越来越多的关注。现有的技术主要分为三类基于本体和关键词抽取的方法,例如参考文献 1 (Dill,S.,Eiron, N.,Gibson,D.,Gruhl, D.,Guha, R. V.,Jhingran, A.,Kanungo, T., Rajagopalan, S.,Tomkins, A.,Tomlin, J. A.,and Zien, J. Y. 2003. SemTag and Seeker Bootstrapping the Semantic Web via Automated Semantic Annotation. In WWW’ 03 Proc. of the Twelfth International World Wide Web Conference. 178-186.)中提供一个大规模文本分析和自动语义标注的平台,它通过对一小部分训练数据的学习来对网页进行自动标注。但这里的应用的前提是假设本体工程在社会标签标注前已经建立好或者本体工程的建立仅仅依赖于网页的关键词(Keyword)抽取。另外,关键词直观描述了 Web文档的内容,同时社会标签与文档的内容具有一致性,因此关键词成为了生成标签的最直接的方法。基于“词袋”的语言模型假设,文档中词项的出现频率(Term Frequency,TF)(也可简称为词频),反映了该词项的关键程度,于是往往成为的关键词提取的权重之一。例如参考文献 2(Chirita, P. A.,Costache, S.,Nejdl,W·,and Handschuh,S. 2007. P-tag large scale automatic generation of personalized annotation tags for the web. In WWW' 07 Proceedings ofthe 16th international conference on World Wide Web.845-854.)通过提取Web文档关键词的方法来自动标签标注。而现实情况是社会标签的内容不仅仅来源于网页的关键词,它还涉及很多网页文本之外的内容。基于协同过滤(collaborative filtering, CF)的方法,例如参考文献3 (Lu, Y. -Τ. , Yu, S. -I. , Chang, Τ. -C. , and Hsu, J. Y. 2009. A content-based method to enhance tag recommendation. In In Proc. of IJCAI,09. 2064-2069·)提出了一个生成网页标签的协同过滤方法,该方法依据当前网页与其近邻网页内容的相似度大小,从其近邻网页的标签中生成当前网页的标签。然而,基于协同过滤的标签推荐方法仅仅是从当前网页的近邻网页中生成标签,而没有考虑到语义层面,尤其是同义和反义。基于话题模型的方法,例如混合成员的话题模型MM-LDA (mixed membership LDA) 模型(参考文献 4 :Erosheva, Ε.,Fienberg, S.,and Lafferty, J. 2004. Mixed membership models of scientific publications. In Proceedings of the National Academy of Sciences. Vol. 101. press, 5220-5227.)将Web文档的词项和标注的标签分别完全独立地由同一个话题分布生成。进一步参考文献5(Guo,J.,Cheng, X.,Shen, H.,and Bai, S.2009.Exploring collaboratively annotated data for automatic annotation. In Workshop on Content Analysis in the Web 2. Oin the 18th International World Wide WebConference.)提出了一致个生话题模型 Corr-LDA (correspondence latent Dirichlet allocation).该模型更加紧凑地模型化了 Web文档词项与标签的生成过程。但随着词项降维和混合隐藏话题的建模,这两种话题模型MM-LDA和Corr-LDA在标签预测中往往会忽略很多细节并带有噪音数据。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺陷,提供一种自动进行社会标签标注的方法,同时考虑文档具体内容的一致性和抽象语义层的相关性,以提高社会标签自动标注的准确性。本专利技术的目的是通过以下技术方案实现的一方面,本专利技术提供了一种社会标签自动标注的方法,包括步骤1)初始化网页数据集,形成对应的词项空间和标签空间;所述网页数据集由已经被用户标注的网页组成,并被分为训练集R和R’ ;步骤2)对于训练集R’中的每个网页,计算所述标签空间中每个标签对于该网页的权值向量,其中,标签j对于网页i的权值向量=[τ^,(υ,Α」Γ , τ u,ζ ^ ρ η分别为基于训练集R和R’,利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值;步骤;3)建立线性融合权值模型=^rMJ) +仏Mn + ^PrMJ) =λΤ ·Χ%),并且基于训练集R’对参数λ = 进行估计,其中π表示对于网页 i的一种标签项序列,标签项η (j)处于该序列的第j位;本文档来自技高网
...

【技术保护点】
1.一种社会标签自动标注的方法,所述方法包括:步骤1)初始化网页数据集,形成对应的词项空间和标签空间;所述网页数据集由已经被用户标注的网页组成,并被分为训练集R和R’;步骤2)对于训练集R’中的每个网页,计算所述标签空间中每个标签对于该网页的权值向量,其中,标签j对于网页i的权值向量τi,j,ζi,j,ρi,j分别为基于训练集R和R’,利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值;步骤3)建立线性融合权值模型(math)??(mrow)?(msubsup)?(mi)X(/mi)?(mrow)?(mi)π(/mi)?(mrow)?(mo)((/mo)?(mi)j(/mi)?(mo))(/mo)?(/mrow)?(/mrow)?(mrow)?(mo)((/mo)?(mi)i(/mi)?(mo))(/mo)?(/mrow)?(/msubsup)?(mo)=(/mo)?(msub)?(mi)λ(/mi)?(mn)1(/mn)?(/msub)?(msub)?(mi)τ(/mi)?(mrow)?(mi)i(/mi)?(mo),(/mo)?(mi)π(/mi)?(mrow)?(mo)((/mo)?(mi)j(/mi)?(mo))(/mo)?(/mrow)?(/mrow)?(/msub)?(mo)+(/mo)?(msub)?(mi)λ(/mi)?(mn)2(/mn)?(/msub)?(msub)?(mi)ζ(/mi)?(mrow)?(mi)i(/mi)?(mo),(/mo)?(mi)π(/mi)?(mrow)?(mo)((/mo)?(mi)j(/mi)?(mo))(/mo)?(/mrow)?(/mrow)?(/msub)?(mo)+(/mo)?(msub)?(mi)λ(/mi)?(mn)3(/mn)?(/msub)?(msub)?(mi)ρ(/mi)?(mrow)?(mi)i(/mi)?(mo),(/mo)?(mi)π(/mi)?(mrow)?(mo)((/mo)?(mi)j(/mi)?(mo))(/mo)?(/mrow)?(/mrow)?(/msub)?(mo)=(/mo)?(msup)?(mi)λ(/mi)?(mi)T(/mi)?(/msup)?(mo)·(/mo)?(msubsup)?(mi)X(/mi)?(mrow)?(mi)π(/mi)?(mrow)?(mo)((/mo)?(mi)j(/mi)?(mo))(/mo)?(/mrow)?(/mrow)?(mrow)?(mo)((/mo)?(mi)i(/mi)?(mo))(/mo)?(/mrow)?(/msubsup)?(mo),(/mo)?(/mrow)?(/math)并且基于训练集R’对参数λ=[λ1,λ2,λ3]进行估计,其中π表示对于网页i的一种标签项序列,标签项π(j)处于该序列的第j位;步骤4)基于步骤3)所估计的参数,计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值,按该权值的大小自动生成用于标注该网页的标签项序列。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘盛华程学旗郭嘉丰刘悦廖华明朱亚涛
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1