当前位置: 首页 > 专利查询>郑州大学专利>正文

基于随机游走和粗糙决策置信度的文本情感分类方法技术

技术编号:18894518 阅读:26 留言:0更新日期:2018-09-08 10:58
本发明专利技术涉及基于随机游走和粗糙决策置信度的文本情感分类方法,包括如下步骤:步骤一,对数据进行预处理,生成预处理后的数据集DOC;步骤二,根据特征选择算法,对数据集进行特征选择;步骤三,根据随机游走特征对特征选择的结果进行词性分析;步骤四,获取文本候选属性,建立情感决策表;步骤五,运用粗糙集知识,对其进行离散化处理形成离散化决策表;步骤六,再通过粗糙决策置信度,对离散化决策表进行最终情感类别判定。本发明专利技术利用随机游走特征和粗糙决策置信度解决文本分类过程中情感词极性的判别问题,对于特征文本的情感产生做出正确的类别判断。

Text sentiment classification method based on random walk and rough decision confidence

The invention relates to a text emotion classification method based on random walk and rough decision confidence, which comprises the following steps: step 1, preprocessing the data and generating the preprocessed data set DOC; step 2, selecting the features of the data set according to the feature selection algorithm; step 3, selecting the features according to the random walk features; and step 3, generating the special features according to the random walk features The results of the selection are analyzed by lexical analysis; Step 4, the candidate attributes of the text are obtained, and the emotion decision table is established; Step 5, the discretization of the decision table is formed by using rough set knowledge; Step 6, the final emotion classification of the discretization decision table is determined by rough decision confidence. The invention uses random walk feature and rough decision confidence to solve the problem of judging the polarity of emotional words in the process of text classification, and makes correct classification judgment for emotional generation of feature text.

【技术实现步骤摘要】
基于随机游走和粗糙决策置信度的文本情感分类方法
本专利技术涉及智能信息处理领域,具体涉及到自然语言情感词极性的产生方法,尤其涉及基于随机游走和粗糙决策置信度的文本情感分类方法。
技术介绍
随机游走特征是针对浏览网页的用户行为建立的抽象概念特征。把它用在对词汇网络的构建中,通过对每个节点表示并确定其词汇极性,并且可以有两个标签:正或负。对于随机游走特征在情感词极性判别上的应用,最重要的是需要构建词的图框架,将数据映射成随机游走图,在图框架中加入词间的相关关系,进而得到对未知词极性的判别。粗糙集的离散化方法具有一定的特点,必须满足决策系统离散化的一致性要求。粗糙集理论包含了对信息系统的约简,通过去除冗余信息,完成对规则的提取,实现在没有任何先验知识基础上的系统分类。在连续属性离散化的过程中,也包含了对决策表的约简,通过选择切割点并且合并相邻间隔区间,得到决策表中条件属性的约简。通过离散化后的决策表可以获得知识系统中的隐含数据,即决策规则,以此增加对新对象匹配的可能性。一般地,在文本数据处理过程中,不可避免的会出现“维数灾难”问题,在文本向量空间中,维数灾难问题就转化为了高维特征空间的线性划分问题,其维数的增加就会导致数据稀疏,从而引出属性值匹配困难,这也是本专利技术需要解决的问题。
技术实现思路
针对现有技术的缺陷,本专利技术提出了基于随机游走和粗糙决策置信度的文本情感分类方法,利用随机游走特征和粗糙决策置信度解决文本分类过程中情感词极性的判别问题,对于特征文本的情感产生做出正确的类别判断。为实现上述目的,本专利技术提出基于随机游走和粗糙决策置信度的文本情感分类方法,包括如下步骤:步骤一,对数据进行预处理,生成预处理后的数据集DOC;步骤二,根据特征选择算法,对数据集进行特征选择;步骤三,根据随机游走特征对特征选择的结果进行词性分析,输出结果为词汇的情感词极性Sentiment(w),归一化节点之外边的权重,权重值通过随机游走结束次数的百分比进行调整;步骤四,根据步骤二所得到的特征选择结果,结合步骤三得到的权重值,获取文本候选属性,建立情感决策表;步骤五,根据步骤四所得到的情感决策表,运用粗糙集知识,对其进行离散化处理形成离散化决策表;步骤六,根据步骤五所得到的离散化决策表,通过粗糙决策置信度,对离散化决策表进行最终情感类别判定。进一步,步骤一中的数据预处理包括分词和词性抽取;步骤二中的特征选择算法为SM-CHI=LF(t)*CHI(t)*SM(t),其中,若t属于停用词并且在部分语篇中不属于动词、名词、形容词,则LF(t)=0,否则LF(t)=1;CHI(t)为卡方值;SM(t)代表单词t是否是同义词,如果是,则合并所有它的同义词。进一步的,在步骤三中通过随机游走特征对特征选择的结果进行词性分析,并在步骤三中进行游走结束后的权重调整,调整方法为:其中,Pij表示从节点i到节点j归一化后的游走权重,Wkmin表示K次游走权重调整中的最小值,Wkmax表示K次游走权重调整中的最大值。进一步,在步骤四中建立如下的情感决策表:属性(Fj,Pj)由特征Fj和其词汇情感极性权重Pj组成,wij表示文本Doci在特征Fj下的权重,在表1中,“C”列表示文本的情感倾向类别,取“正”或者“反”。进一步,在进行步骤四离散化处理前,首先要进行等价类计算,得到对应对象集U的划分U/B;1.对对象集U进行排序;2.把U中的第一个划分放进对象集U中;3.如果xi和xk对于B中的每个属性具有相同值,那么Bs=Bs∪{xi},否则进入第一步继续循环。进一步,在得到对应对象集U的划分U/B后,再进行情感决策表DT=(U,C∪D,V,F)离散化处理,预期离散化处理结果为DT*=(U*,C*∪D*,V*,F*)。进一步,在步骤六中离散化决策表中的单个文本置信程度用以下方法:其中,表示为x在属性j*下关于决策类Cd的置信度,表示为由x在论域U中决定的r等价类,越接近于1,则表明其隶属于决策类Cd的可信程度越高;通过单个文本置信度判别,从而得到整个文本的情感类别划分:情感极性权重Pj已经归一化,wij≠0,μcd(DOC)越接近于1,则表明其隶属于决策类Cd的可信程度越大。有益效果1)本专利技术创造性的运用基于随机游特征的方法,把文本词汇转化为图状网络的构建,通过随机游走特征行为进行分析,对游走特征步数进行加权,从而得到随机游走后的情感词汇极性。2)本专利技术把词网络图构建后的情感词极性分析结果进行离散化处理,并对属性值进行加权,扩充了随机游走特征的使用范围,通过最终的粗糙决策置信度对加权后的属性文本进行类别划分。3)本专利技术可以对任意随机文本进行情感类别的划分。附图说明图1是本专利技术的系统流程图;图2是本专利技术的系统结构示意图;图3是本专利技术的原始数据示例图;图4是本专利技术的数据处理结果图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术的方法详细如下:步骤一,对数据进行预处理,包括分词,词性抽取,生成预处理后的数据集DOC;步骤二,根据特征选择算法SM-CHI=LF(t)*CHI(t)*SM(t),对数据集进行特征选择,其中,若t属于停用词并且在部分语篇中不属于动词、名词、形容词,则LF(t)=0,否则LF(t)=1;CHI(t)为卡方值;SM(t)代表单词t是否是同义词,如果是,则合并所有它的同义词。通过对原始CHI记录日志的处理,能有效降低高CHI值,CHI计算公式如下:其中,A+B代表包含单词t的文本数,N代表文本总数。如果t在所有类别中都出现并且频率很高,则其CHI值接近于0,因此可以筛选出来不具备特征属性的高频词。步骤三,通过对随机游走特征的描述以及对游走状态的预测,提出基于扩展随机游走特征的情感词极性判别方法。首先构建一个词汇关联图,并在图中定义随机游走。令S+和S-分别表示已经标记为正或负的目标词的两组顶点。通过随机游走特征计算词极性的方法为:如果rw→Pos(w)则E[h(w|s+)]=h*(w|s+);设置扩展参数λ(0<λ<1);如果h*(w|S+)≤λh*(w|S-)则Sentiment(w)=Pos(w);在方法中,结合词关联图,得到最终词汇情感极性。其中,rw表示随机游走的散列个数,如果其中一个游走散列到达目标节点Pos(w),则游走结束,得到h(w|S+)的目标期望值h*(w|S+),则判断词的极性为正。同理,也可判断词的极性为负或中性。其中,扩展参数可以确保得到的极性为确定的值。由于计算转移概率P时,需要归一化节点之外边的权重W(0<W<1),所以得到的情感词记性倾向程度可以通过权重值进行考量,权重值越高,则词汇倾向于负或正的程度越高。权重值通过随机游走结束次数的百分比进行调整,权重表示如下:其中,Pij表示从节点i到节点j归一化后的游走权重,Wkmin表示K次游走权重调整中的最小值,Wkmax表示K次游走权重调整中的最大值。步骤四,根据步骤二所得到的特征选择结果,结合步骤三得到的权重值,获取文本候选属性集,并建立以下文本情感决策表。候选属性集的获取步骤如下:1)对训练本文档来自技高网...

【技术保护点】
1.基于随机游走和粗糙决策置信度的文本情感分类方法,其特征在于,包括如下步骤:步骤一,对数据进行预处理,生成预处理后的数据集DOC;步骤二,根据特征选择算法,对数据集进行特征选择;步骤三,根据随机游走特征对特征选择的结果进行词性分析,输出结果为词汇的情感词极性Sentiment(w),归一化节点之外边的权重,权重值通过随机游走结束次数的百分比进行调整;步骤四,根据步骤二所得到的特征选择结果,结合步骤三得到的权重值,获取文本候选属性,建立情感决策表;步骤五,根据步骤四所得到的情感决策表,运用粗糙集知识,对其进行离散化处理形成离散化决策表;步骤六,根据步骤五所得到的离散化决策表,通过粗糙决策置信度,对离散化决策表进行最终情感类别判定。

【技术特征摘要】
1.基于随机游走和粗糙决策置信度的文本情感分类方法,其特征在于,包括如下步骤:步骤一,对数据进行预处理,生成预处理后的数据集DOC;步骤二,根据特征选择算法,对数据集进行特征选择;步骤三,根据随机游走特征对特征选择的结果进行词性分析,输出结果为词汇的情感词极性Sentiment(w),归一化节点之外边的权重,权重值通过随机游走结束次数的百分比进行调整;步骤四,根据步骤二所得到的特征选择结果,结合步骤三得到的权重值,获取文本候选属性,建立情感决策表;步骤五,根据步骤四所得到的情感决策表,运用粗糙集知识,对其进行离散化处理形成离散化决策表;步骤六,根据步骤五所得到的离散化决策表,通过粗糙决策置信度,对离散化决策表进行最终情感类别判定。2.根据权利要求1所述的文本情感分类方法,其特征在于:步骤一中的数据预处理包括分词和词性抽取;步骤二中的特征选择算法为SM-CHI=LF(t)*CHI(t)*SM(t),其中,若t属于停用词并且在部分语篇中不属于动词、名词、形容词,则LF(t)=0,否则LF(t)=1;CHI(t)为卡方值;SM(t)代表单词t是否是同义词,如果是,则合并所有它的同义词。3.根据权利要求2所述的文本情感分类方法,其特征在于:在步骤三中通过随机游走特征对特征选择的结果进行词性分析,并在步骤三中进行游走结束后的权重调整,调整方法为:其中,Pij表示从节点i到节点j归一化后的游走权重,Wkmin表示K...

【专利技术属性】
技术研发人员:柴玉梅韩飞王黎明张卓徐源音李永帅韩慧
申请(专利权)人:郑州大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1