【技术实现步骤摘要】
一种基于主题关联度与关键词联想的短文本特征扩展方法
[0001]本专利技术涉及一种基于主题关联度与关键词联想的短文本特征扩展方法,属于自然语言处理
技术介绍
[0002]随着网络技术的不断发展,越来越多的网民在网络上表达自己看法与意见,微博评论、新闻评论、产品评价等等成为网络数据中最为常见的数据形式。这些文本简单短小,还存在内容缺失、省略的现象,在自然语言处理领域的文本任务中,短文本的特性会导致在任务中特征向量的维度过少,在整体特征矩阵中不可避免地会出现极度稀疏的问题,使得用在长文本中的方法不再适合直接使用,从而给文本任务带来了很大的困难与挑战。
[0003]为了获取更多短文本的语义信息,近年来的研究一方面是利用外部语料库对原始文本进行扩展。有学者利用维基百科作为外部语料库,利用其强大的百科收录信息,在维基百科中搜索词,根据其类别树获得一系列相关的文本,作为特征的扩展。还有利用公共搜索引擎的方式搜索原始短文本中的词,利用搜索引擎返回的结果页面为基础,从中提取相关的特征进行扩展。也有学者在外部语料的基础之上, ...
【技术保护点】
【技术特征摘要】
1.一种基于主题关联度与关键词联想的短文本特征扩展方法,其特征在于,包括以下步骤:步骤1、对原始文本数据集进行预处理工作,包括分词、去躁、向量化;步骤2、利用词频
‑
逆向文件频率和信息增益对词与主题的关联程度进行权重量化计算;步骤3、根据权重对词进行降序排序,选取排序中TopK的词作为与主题关联程度高的关键词,并构建关键词集合;步骤4、将步骤3构建的关键词集合结合外部语料库进行近义词扩展;步骤5、根据关键词集合进行联想扩展,分为自关联联想扩展和外部库联想扩展两种方式,并生成候选关联词集合;然后对候选关联词集合重新进行词频
‑
逆向文件频率与信息增益的权重计算,筛选TopK的词向量组成最终的关联词集合;将关联词集合加入到原始文本数据集中,完成短文本的特征扩展。2.根据权利要求1所述一种基于主题关联度与关键词联想的短文本特征扩展方法,其特征在于,所述步骤1中,预处理的具体操作如下:步骤1.1、利用中文分词工具进行分词工作;步骤1.2、利用词表去除文本中的停用词及无意义标注;步骤1.3、对分词去噪后的词汇进行向量化工作,预处理后一个包含m个句子,每句有n个词的数据集将被表示为一个矩阵Q
mn
:3.根据权利要求2所述一种基于主题关联度与关键词联想的短文本特征扩展方法,其特征在于,所述步骤2中,词向量的主题关联度权重计算如下:步骤2.1、在预处理结束后的文本数据集上,文本中词向量与主题是否相关的概率分布为P(X=x
i
)=p
i
,i=1,2,其中x
i
表示与主题是否相关,有x1、x2两种取值,分别表示与主题相关和与主题不相关,p
i
即表示对应的概率;根据信息熵的定义,文本集合X的熵为:文本中的特征Y和文本集合X的联合分布为:P(X=x
i
,Y=y
i
)=p
ij
,i=1,2;j=1,2,...,m式中,m表示特征数,x
i
表示与主题是否相关,有x1、x2两种取值,分别表示与主题相关和与主题不相关,y
i
表示第j个特征,p
ij
即表示对应概率;每个特征的条件熵为:H(X)表示文本集合的熵,即对文本X分类的不确定性,H(Y|X)则表示在文本集合X中,特征Y对分类的不准确性;信息增益IG(X,Y)为:IG(X,Y)=H(X)
‑
H(X,Y);
步骤2.2、首先计算词频TF:式中,n
i,d
表示特征f
i
在文档d中出现的次数,∑
k
n
k,d
表示文档d中所有特征出现的次数;再计算逆文档频率:式中,N表示文档总数,n
i
表示出现特征f
i
的文档数;那么TF
‑
IDF的值即为词频与逆文档频率的乘积:TF
‑
IDF=TF(f
i
)
×
IDF(f
i
)对词频进行归一化操作,然后在TF
‑
IDF基础上引入信息增益得最后的词重要性量化公式:式中,IG表示信息增益;步骤2.3、对原始数据集进行k次简单随机抽样,构造k个数据集,数据集分别记为D1,D2,D3,....,D
k
;对k个数据集都使用该方法构造决策树,将会产生k个决策树;之后通过给特征添加噪声对比对分类结果的影响,对于i个数据集D
i
,第j个特征的主题关联度量为I
ij
=|M
ij
‑
N
ij
|,其中M
ij
表示在第i个数据集中对第j个特征添加噪声前的分类正样本的个数,N
ij
表示在第i个数据集中对第j个特征添加噪声后的分类正确的个数;对于每棵树都可以得到某个特征的主题关联度量,因此对其取平均值得最后的主题关联度量为其中I
ji
表示第i个特征在第j个树上的主题关联度;步骤2.4、将步骤2.2所得TF
‑
IDF
‑
IG值与步骤2.3所得I进行乘运算,得最后的主题关联度,计算公式如下:4.根据权利要求3所述一种基于主题关联度与关键词联想的短文本特征扩展方法,其特征在于,所述步骤2.3中,构造决策树的具体方法如下:
(1)对于任意一个数据集D,从特征集合中随机抽取n个特征,计算每个特征对于数据集D的信息增益;(2)选择信息增益最大的特征,记为...
【专利技术属性】
技术研发人员:贾中昕,孙知信,孙哲,赵学健,胡冰,宫婧,汪胡青,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。