一种基于拓扑特征扩展的知识主题短文本层次分类方法技术

技术编号:15895310 阅读:100 留言:0更新日期:2017-07-28 19:49
本发明专利技术一种基于拓扑特征扩展的知识主题短文本层次分类方法,能够有效的对知识主题短文本进行组织和管理,解决互联网海量知识短文本造成的信息过载问题。其包括以下步骤:1)初始文本特征构建;2)基于拓扑特征的短文本特征扩展;3)异构知识主题间的迁移学习方法。通过采集多个知识主题对应的短文本长度做初步的量化统计和分析,明确了知识主题短文本文本特征的稀疏程度。通过短文本之间的词共现情况构建并分析知识主题短文本网络,最终选取社区特征有效扩展文本特征。通过计算知识主题之间的KL散度来度量域的差异性,进而选择辅助数据;将层次分类问题转换为多分类问题,有效的对知识主题短文本进行组织和管理。

A short text hierarchical classification method based on topological feature extension

The invention relates to a knowledge of the subject of short text classification approach based on extended topological features, can effectively organize and manage the knowledge of the theme of short text, solve the problem of information overload caused by the massive short text knowledge of internet. It includes the following steps: 1) construction of initial text features; (2) extension of short text features based on topological features; (3) transfer learning between heterogeneous knowledge topics. By collecting the short text length corresponding to several knowledge topics, the initial quantification, statistics and analysis are made, and the sparse degree of the text of the short text of the knowledge subject is defined. Through the word co-occurrence between short texts, a short text network of knowledge topic is constructed and analyzed. Finally, the community feature is selected to effectively extend the text features. The difference between the calculated KL divergence to measure the domain knowledge of the subject, and then select the auxiliary data; converting the hierarchical classification problem for multi classification problems, effective organization and management of the knowledge of the subject of short text.

【技术实现步骤摘要】
一种基于拓扑特征扩展的知识主题短文本层次分类方法
本专利技术涉及数据挖掘领域,具体为一种基于拓扑特征扩展的知识主题短文本层次分类方法。
技术介绍
随着科学技术的发展,人类知识爆炸式增长,互联网上各类开放知识源已成为人们交流信息及获取知识的重要来源,一方面极大地促进了知识的传播和应用,但同时也加剧了知识碎片化现象。知识碎片化现象容易引发学习者认知过载,导致“注意力分散效应”,也容易造成学习者认知偏差等问题。由于各开放知识源知识载体是“短文本”,所以如何有效的对短文本进行组织和管理是解决知识碎片化现象问题的关键,是有重要意义的一项工作。为了有效组织和管理互联网上的海量知识主题短文本,通常按照知识体系结构对短文本进行分类,以更好地方便学习者快速认识到知识主题的各个分面,以及学习各个分面上短文本的内容,对知识主题各个分面有更加深入的认识,从而高效地完成对知识主题的认知过程,提高学习者的学习效率。基于知识体系结构具有层次特征,多分类方法是解决层次分类问题的主要方法之一,因此我们将知识主题短文本分类问题转换成多分类问题。申请人经过查新,没有找到有关对知识主题短文本进行层次分类的专利,因而检索了一本文档来自技高网...
一种基于拓扑特征扩展的知识主题短文本层次分类方法

【技术保护点】
一种基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于,包括以下步骤:1)初始文本特征构建;1‑1)对短文本进行预处理,构建短文本文件系统;1‑2)以短文本文件系统作为整体,计算其初始熵值;以词的出现及不出现为条件,计算词在系统中的条件熵;将短文本文件系统的初始熵和条件熵的差值作为信息增益,并以信息增益作为指标对词进行排序,选择大于一定阈值的词作为特征,即特征词,从而构建向量空间模型,得到特征空间;1‑3)将短文本文本内容映射到特征空间,得到用特征词表示的短文本;通过TF‑IDF方法计算特征词的权重,从而得到短文本的初始文本特征向量;2)基于拓扑特征的短文本特征扩展;2‑1)短文本网络的...

【技术特征摘要】
1.一种基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于,包括以下步骤:1)初始文本特征构建;1-1)对短文本进行预处理,构建短文本文件系统;1-2)以短文本文件系统作为整体,计算其初始熵值;以词的出现及不出现为条件,计算词在系统中的条件熵;将短文本文件系统的初始熵和条件熵的差值作为信息增益,并以信息增益作为指标对词进行排序,选择大于一定阈值的词作为特征,即特征词,从而构建向量空间模型,得到特征空间;1-3)将短文本文本内容映射到特征空间,得到用特征词表示的短文本;通过TF-IDF方法计算特征词的权重,从而得到短文本的初始文本特征向量;2)基于拓扑特征的短文本特征扩展;2-1)短文本网络的构建;输入某一知识主题下短文本集合以及短文本之间的共现词阈值alpha;统计短文本包含特征词的数量并存放在二维数组中,然后遍历后续短文本并统计文件之间的共现词数量,完成和后续文本比较后,如果数组中任一维度的数值不小于alpha,那么认为该文本和相应文本之间有关联;最后保存根据共现词阈值alpha构建的网络拓扑结构,即以该知识主题下短文本为节点的网络结构;2-2)短文本网络的修复;将知识主题下网络节点分为两部分:一是孤立节点集合S1,二是非孤立节点集合S2,其中孤立节点与其他节点之间没有大于阈值的共现词特征;对于S1中的点,分别计算其与S2中各个节点的语义距离,选择语义距离最短的节点将该节点与其相连,并从S1删除该节点,向S2添加该节点,重复该操作直到S1为空,完成短文本网络的修复;2-3)短文本网络社区结构的划分;使用Louvain算法进行社区结构的划分:首先通过优化短文本网络的局部模块度来寻找最小社区;聚集属于同一社区的节点,以社区为节点来建立新的网络;迭代执行上述社区结构的划分步骤,直到获得整体最大模块度并产生稳定的社区结构;2-4)短文本文本特征扩展;对于某一知识主题下的一个待分类的短文本,通过所述步骤1)获取其初始文本特征,然后通过计算语义距离的方法计算其和各个社区的语义距离,最后将每个短文本归属到语义距离最短的社区中,将各个社区的特征作为对应的拓扑特征,从而用拓扑特征扩展文本特征,得到最终基于拓扑特征扩展的文本特征向量;3)异构知识主题间的迁移学习方法;3-1)基于KL散度的知识主题距离的度量;统计同一知识领域下两个不同知识主题特征向量的频率分布情况,即特征词在该知识主题的短文本中出现的概率,并按照其出现的频率将特征空间中的特征进行排序;对于进行排序后的特征空间中每个特征词,统计其在不同短文本中出现的频率,统计其概率分布,得到特征向量概率分布矩阵;在两个不同知识主题的特征空间中截取相同的长度,使两特征空间中特征向量的维度一致,特征词一一对应,采用KL散度方法计算两个不同知识主题下特征向量概率分布矩阵的差异性,得到两个不同知识主题的距离;3-2)基于Multi-TrAdaBoost的知识主题短文本多分类;选择基于KL散度距离能够满足训练数据集数量要求的知识主题短文本数据集作为辅助数据集,结合基于网络拓扑特征扩展后的短文本特征,利用Multi-TrAdaBoost迁移学习方法实现基于实例的迁移学习,并将短文本层次分类问题转换成多分类问题,最终对短文本实现层次分类。2.如权利要求1所述的基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于:所述的步骤1-2)中以短文本文件系统作为整体,其初始熵值的计算过程如下;其中:Ti为知识主题T的子主题,以短文本文件系统作为整体,计算其初始熵值;p(Ti)表示取得子主题Ti的概率;条件熵计算过程如下;其中:w为词表W={w1,w2,...,wm}中的词,p(Ti|w)表示词w出现时的条件概率,表示词w不出现时的条件概率;以文件系统的初始熵和条件熵的差值作为信息增益,表示该特征带来的信息增益量,其计算过程为:IG(T|w)=Entropy(T)-Entropy(T|w)。3.如权利要求1所述的基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于:所述的步骤2-1)的具体操作如下表所示:2...

【专利技术属性】
技术研发人员:魏笔凡吴蓓刘均郑庆华郭朝彤郑元浩吴科炜
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1