当前位置: 首页 > 专利查询>北京大学专利>正文

一种短文本特征提取方法技术

技术编号:12223115 阅读:101 留言:0更新日期:2015-10-22 01:14
本发明专利技术公布一种短文本特征提取方法,基于知识库和句法分析方法对短文本进行特征提取,包括模型训练过程和特征提取过程;针对训练集数据进行训练;利用验证集数据进行验证,得到最高的准确率对应的权重组W和最高的准确率对应的训练模型M;特征提取过程针对测试集数据进行处理之后,将每一个类别赋予权重组W;通过ESA算法将短文本映射到概念空间,得到短文本的解释向量;通过LDA得到话题向量,作为短文本最终的特征向量,作为短文本的特征。本发明专利技术提供方法可解决短文本特征稀疏和短文本主题不明确的问题;降低短文本特征提取处理难度,提升短文本特征提取的结果,提高文本分类的准确度。

【技术实现步骤摘要】

本专利技术涉及文本特征提取和文本分类方法,尤其涉及。
技术介绍
随着微博、社交网站和热线电话等应用的发展,越来越多的信息开始以短文本的 形式呈现,并且呈爆炸式增长。文本挖掘技术可以帮助人们快速有效的从海量数据中获取 关键信息,而文本特征提取则是文本挖掘的关键步骤。 现有的文本特征提取方法大多采用基于Bag of Words (词袋)模型的方法,该方 法用在长文本中通常能取得较好的效果,但是用在短文本中常常效果不佳。主要原因是,相 较于长文本,短文本具有特征稀疏、主题不明确的特点。首先,由于短文本长度的限制,其特 征词很少,用向量空间模型生成的特征向量将会是一个很稀疏的向量,增加了文本处理的 难度。其次,在长文本中,跟主题相关的词通常会大量出现,可以由此来判断整片文章的主 要内容;而在短文本中则不能根据词频来判断主要内容,比如短文本"咨询羽毛球主题的餐 厅"中,"羽毛球"和"餐厅"的词频相同,但显然该文本的主题是"餐厅",在文本分类时应被 分到"餐饮"这一类而不是"运动"类别,由此可见,主题不明确的问题会影响到短文本的处 理效果。由于短文本具有上述的特征稀疏和主题不明确的特点,现有基于Bag of Words模 型的文本特征提取方法应用于短文本的特征提取,其处理的难度大,且难以解决短文本主 题不明确的问题,从而使得特征提取的效果不佳,处理结果误差较大,精确度差。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供,该方法分 别基于知识库和句法分析,通过基于百度百科的ESA (Explicit Semantic Analysis,显示 语义分析)算法为文本引入语义信息,并通过LDA (Latent Dirichlet Allocation,潜在狄 利克雷分布)学习模型发掘语料库中的词共现信息,以解决短文本特征稀疏的问题;再利 用依存句法分析方法将文本中的词划分成不同成分,根据不同成分的词,提取出能代表文 本主题的词,调高这些词的权重,以解决短文本主题不明确的问题;从而降低短文本特征提 取处理难度,提升短文本特征提取的结果,提高文本分类的准确度。 本专利技术提供的技术方案是: -种短文本特征提取方法,该方法基于知识库和句法分析方法对短文本进行特征 提取,通过计算各个话题的权值,以话题向量作为短文本最终的特征向量,以解决短文本特 征稀疏和短文本主题不明确的问题;包括模型训练过程和特征提取过程。 可将短文本数据分为训练集数据、验证集数据和测试集数据。短文本特征提取方 法具体包括以下步骤: -,模型训练过程:针对训练集数据进行训练;利用验证集数据进行验证,得到最 高的准确率对应的权重组W和最高的准确率对应的训练模型M ; 针对训练集数据进行训练,对训练集中的每篇文档(短文本),通过短文本特征提 取方法得到该文档的话题向量;训练集中的每篇文档采用该文档的话题向量表示,作为该 文档的短文本特征;利用验证集数据来获得能够使得分类准确率为最高的不同类别名词权 重值的组合;具体是对验证集进行分词和赋予权重值,通过枚举权重值的方法进行分类并 记下准确率,再找出分类准确率最高的那组权重值;之后用该权重值组合对测试集进行分 类; 模型训练过程针对训练集数据和验证集数据,具体执行如下操作: 11)分别使用分词工具对短文本进行分词处理,得到短文本中包含词语的词性,同 时还得到词与词之间的依存句法关系; 12)过滤掉短文本句子中的停用词,只保留短文本句子中的名词; 13)将短文本句子中的所有名词根据依存句法关系分为多个类别; 14)每一个类别分别赋予权重;权(重)值的约束条件是:每一个类别的权重值为 不小于0且不大于1,所有类别的权重值的和为1 ;权重值的确定具体采用枚举的方法; 15)基于百度百科(http://baike. baidu. com/)构建ESA中文模型,得到每一个词 到概念空间的倒排索引;通过ESA算法将短文本映射到概念空间,得到短文本的解释向量; 16)通过LDA模型得到话题向量; 权重值的确定是采用枚举的方法,具体过程如下: A1)为了得到效果最优的权值组合,我们以设定步长遍历从权值组合 {0. 0, 0. 0, 0. 0, 1. 0}到权值组合{1. 0, 0. 0, 0. 0, 0. 0}的所有满足约束条件的权值组合;本 专利技术实施例中以0.05为步长; A2)对于每一组权值组合,通过使用现有的SVM分类器LibSVM(http://www. csie. ntu. edu. tw/~cjlin/libsvm/)在训练集(训练集的每篇文档都是使用步骤16)所得到的 话题向量表示的)上训练出一个分类模型;然后,使用和训练集一样的权重用训练出的分 类模型对验证集进行分类,得到该分类的准确率; A3)取每个类在验证集上分类准确率最高的权值组合作为它的最优权值组合 (Optimal Weight Combination),然后将所有类的最优权值组合取平均后得到平均权值组 合(Average Weight Combination),平均权值组合就是我们为各类名词最终确定好的权 重; 17)选择获得最高的准确率对应的那组权重W和训练出的最高的分类准确率对应 的分类模型M,作为模型训练过程的结果; 二,特征提取过程针对测试集数据,具体执行如下操作: 21)经过上述步骤1)~3)对测试集数据进行处理之后,将每一个类别赋予上述步 骤17)获得的权重组W ; 22)通过ESA算法将短文本映射到概念空间,得到短文本的解释向量; 23)通过LDA得到话题向量;以话题向量作为短文本最终的特征向量,作为短文本 的特征。 此步骤利用训练好的LDA模型计算解释向量下各个话题的权值,以话题作为短文 本最终的特征向量,作为短文本的特征。之后可将上述步骤5)获得的训练模型M对测试集 数据进行分类,得到该次分类的准确率。 针对上述短文本特征提取方法,进一步地, 在本专利技术实施例中,使用的分词工具为哈工大LTP分词工具;步骤13)所述依存句 法关系包括定中关系、动宾关系和核心关系;并根据这三种依存句法关系,将短文本中的名 词划分成四种成分:ATT,VOB,HED,Others,分别与定中关系、动宾关系、核心关系和非上述 三种关系的其他关系相对应。 步骤15)或22)中,给定一个短文本ST= {wi},求其解释向量V的过程具体包括 如下操作: 31)将ST用向量{ti}表示,其中ti是wi的权值,可以取TF-IDF值;或者是其它 类型的权值; 32)对ST中的每一个词wi,在倒排索引中找到wi的带权概念列表{kj},其中kj 代表了 wi与概念cj的关联度,权值取TF-IDF值时即wi在cj的文章中的TF-IDF值;33)ST的解释向量V = {vl, v2,......,vn},其中vj代表源文本在概念cj上的权 重 步骤16)或23)中,具体利用Gibbs抽样的方法在概念空间上通过LDA模型,得到 话题向量;本专利技术利用LDA模型发掘语料库中的词共现信息,并达到降维的目的。LDA是一 种生成模型,它生成一个涉及K个话题,M篇文章的文档集,本专利技术采用Gibbs抽样的方法 训练LDA模型的过程如下: 首先为每个话题从一个参数为|的Dir本文档来自技高网...
一种短文本特征提取方法

【技术保护点】
一种短文本特征提取方法,基于知识库和句法分析方法对短文本进行特征提取,通过计算各个话题的权值,用话题向量作为短文本最终的特征向量,以解决短文本特征稀疏和短文本主题不明确的问题;所述短文本特征提取方法包括模型训练过程和特征提取过程:一,模型训练过程:针对训练集数据进行训练;利用验证集数据进行验证,得到最高的准确率对应的权重组W和最高的准确率对应的训练模型M;模型训练过程针对训练集数据和验证集短文本数据,具体执行操作11)~17):11)分别使用分词工具对短文本进行分词处理,得到短文本中包含词语的词性,同时还得到词与词之间的依存句法关系;12)过滤掉短文本句子中的停用词,只保留短文本句子中的名词;13)将短文本句子中的所有名词根据依存句法关系分为多个类别;14)每一个类别分别赋予权重值;15)基于百度百科构建ESA中文模型,得到每一个词到概念空间的倒排索引;通过ESA算法将短文本映射到概念空间,得到短文本的解释向量;16)通过LDA模型得到话题向量;17)选择获得最高的准确率对应的那组权重W和训练出的最高的分类准确率对应的分类模型M,作为模型训练过程的结果;二,特征提取过程针对测试集数据,具体执行如下操作:21)经过上述步骤1)~3)对测试集数据进行处理之后,将每一个类别赋予上述步骤17)获得的权重组W;22)通过ESA算法将短文本映射到概念空间,得到短文本的解释向量;23)通过LDA得到话题向量;以话题向量作为短文本最终的特征向量,作为短文本的特征。...

【技术特征摘要】

【专利技术属性】
技术研发人员:童云海叶少强关平胤李凡丁刘文一何晓宇
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1