当前位置: 首页 > 专利查询>清华大学专利>正文

基于类标关系的短文本扩充方法技术

技术编号:11914542 阅读:82 留言:0更新日期:2015-08-20 17:54
本发明专利技术公开了一种基于类标关系的短文本扩充方法,该方法将短文本数据集中的类标信息引入到扩充机制里,根据不同的短文本数据选择不同的辅助数据集,基于类标关系为短文本进行扩充,并有效地为短文本分类。本发明专利技术具有如下优点:解决短文本分类问题的难点;降低了传统的特征扩充方法引入的噪音,从而提高了短文本的分类精度;完成了对传统的基于外部语料信息的扩充方法的创新和改进;可以和不同的分类器结合使用,普适性高,不仅可以应用在短文本分类问题中,还适用于短文本相关的多标签分类等问题上。

【技术实现步骤摘要】

本专利技术属于计算机文本处理
,涉及基于特征扩展的短文本扩充技术。
技术介绍
随着互联网的飞速发展,大量的电子文本信息应运而生。其中,人们通过访问网络 论坛、问答平台和社交网站产生了大量的短文本信息。短文本是指内容较少、文本短小、特 征不明显的文本。短文本虽然篇幅短小,却能真实反映出用户在使用互联网的过程中发生 的行为,通过对短文本进行分类,运营商能更有效地分析网络服务中产生的短文本,以便发 现用户的兴趣并为用户提供推荐性的服务。因此短文本进行分类问题是当下的一个热点问 题。短文本分类方法中大部分是从研宄提高短文本的特征表示方法入手,即通过短文本特 征的扩充、选择等方式让相似的短文本产生更多公共特征。除此之外,还有的研宄工作试图 借助其他辅助资源,通过短文本与辅助资源之间的"词共现"关系,在不改变短文本自身的 特征表示的同时找到短文本之间的联系。对短文本进行扩充是当下短文本分类问题的瓶颈 所在。 本专利解决的问题就是如何有效的为短文本的稀疏特征矩阵进行扩充。目前,短 文本的扩充方法主要包括两大类:根据短文本自身包含的知识进行特征扩充,和基于外部 知识的短文本特征扩充。其中,采用短文本自身挖掘出的知识进行特征扩充的方法是指,先 用层次聚类方法对短文本进行话题聚类,再将每个短文本与这些话题聚类的相似关系作为 特征扩充到原始短文本的词频矩阵中;另外还有的方法借助分布表示,将短文本中 的词语利用文本集合里的上下文进行表示,利用上下文信息丰富短文本。这类方法的分 类精度虽然有一定的提升,但是只利用短文本自身特点进行特征扩充是有局限性的。 基于外部知识的短文本扩充按照外部知识来源的不同,主要分为两种:基于搜索 引擎的特征扩充方法和基于外部语料信息的特征扩充方法。基于搜索引擎的扩充方法主要 利用搜索引擎的便捷性及其具备的丰富知识为短文本进行扩充,通常采用的方法是:把搜 索词放到搜索引擎中进行查询,将返回结果作为搜索词的扩充内容。这种利用搜索引擎 进行扩充的思路在手机应用领域也具有重要的利用价值。这种方法虽然能对原始短文 本进行有效扩充,却具有一定的局限性,尤其是当搜索引擎接受的输入关键词较长时,这种 扩充方法的扩充效果比较差。另外,这种方法依赖网络环境,不适用于那些对实时性要求较 高的短文本分类任务。 基于外部语料信息的特征扩充的主要思路是在进行扩充之前根据需要进行分类 的具体内容和文本的内容人工收集一些相关的长文本数据,然后通过对原始短文本数据进 行主题语义的分析找到短文本与外部预料信息之间的联系进行扩充。这种方法可以一定程 度上地解决基于搜索引擎的扩充方法的弊端。这类方法大部分的外部信息都来自维基百科 (Wikipedia),采用的文本分析方式大多为主题模型。目前,这种方法被广泛应用到短文本 分类问题中。然而这种扩充方式存在两个主要问题:外部数据集的知识覆盖是有限的; 用外部数据集的词语作为原有文本特征的扩充内容可能带来信息丢失或引入噪音。 参考文献 DaiZ,SunA,LiuXY.Crest:Cluster-basedRepresentationEnrichment forShortTextClassification//AdvancesinKnowledgeDiscoveryandData Mining.SpringerBerlinHeidelberg, 2013:256-267. Lave11iA,SebastianiF,ZanoliR.Distributionalterm representations:anexperimentalcomparison//Proceedingsofthethirteenth ACMinternationalconferenceonInformationandknowledgemanagement. ACM,2004:615-624. CabreraJM,EscalanteHJ,Montes-y-GomezM.Distributionalterm representationsforshort-textcategorization//ComputationalLinguistics andIntelligentTextProcessing.SpringerBerlinHeidelberg, 2013:335-346. ShenD,PanR,SunJT,etal.Queryenrichmentforweb-query classification.ACMTransactionsonInformationSystems(TO IS), 2006, 24(3) :320-352. ZhuH,CaoH,ChenE,etal.Exploitingenrichedcontextualinformation formobileappclassification//Proceedingsofthe21stACMinternational conferenceonInformationandknowledgemanagement.ACM, 2012:1617-1621. PhanXH,NguyenLM,HoriguchiS.Learningtoclassifyshortand sparsetext&webwithhiddentopicsfromlarge-scaledatacollections// Proceedingsofthel7thinternationalconferenceonWorldWideWeb. ACM,2008:91-100.
技术实现思路
本专利技术旨在至少解决上述技术问题之一。 为此,本专利技术的一个目的在于提出解决传统的基于外部语料信息的特征扩充方法 可能为原始数据引入噪音的问题。 目前,短文本在即时通讯软件、网络论坛、微博、搜索引擎上的广泛应用,使得对短 文本进行有效的分析显得尤为重要。常用的文本分析方法大部分都是基于向量空间模型将 文本转化为矩阵的形式,但由于短文本长度较短,短文本中的每个文本向量中很多取值都 为〇,因此短文本集的词频矩阵稀疏性较大,普通文本的分析方法在短文本上不奏效。另外, 由于短文本长度较短,出现在短文本中的每一个词都对短文本的语义信息产生重大影响, 因此短文本的分类方法的分类效果受噪音影响很大。为了解决短文本稀疏性问题,人们提 出了基于特征扩充的短文本扩充方法,而在众多扩充方法之中,最常用的扩充方法为基于 外部语料信息的特征扩充方法。 传统的基于外部语料信息的特征扩充方法面临的主要问题是用外部数据集的词 语作为原有文本特征的扩充内容可能带来信息丢失或引入噪音。举例来说,当原始短文本 集的主题为政治和体育两个方面时,按照传统的基于外部语料信息的特征扩充方法,利用 维基百科中的数据信息(其中包含了政治、体育、娱乐、学术、生活等多个方面的主题)为原 始短文本集进行扩充,很可能会扩充一部分与政治和体育关系不大的特征,从而为原始数 据引入噪音。 为了解决传统的基于外部语料信息的特征扩充方法可能为原始数据引入噪音的 问题,本专利技术提出了一种新的短文本扩充方法,这种方法能引入短文本训练数据集中的类 标关系,并基于类标关系本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN104850650.html" title="基于类标关系的短文本扩充方法原文来自X技术">基于类标关系的短文本扩充方法</a>

【技术保护点】
一种基于类标关系的短文本扩充方法,其特征在于,包括以下步骤:(1)对于给定的初始短文本数据集,构建类标文本集合;(2)提取类标文本的特征;(3)根据提取的特征,并计算不同的类标文本的相似度;(4)设定阈值,对类标文本进行聚类,形成类标文本簇;(5)提取类标文本簇的特征;(6)根据提取的类标文本簇的特征,从外部语料信息中筛选辅助数据集;(7)针对不同类标的辅助数据集进行主题挖掘,获取辅助数据集的主题信息;(8)将初始短文本数据集中的短文本在对应类标的辅助数据集进行主题推断;(9)根据推断结果为初始短文本数据集扩充带有类标信息的主题编号;(10)得到扩充后的短文本集。

【技术特征摘要】

【专利技术属性】
技术研发人员:靳晓明张瑞容张世韬
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1