The invention relates to a text emotion classification method based on random walk and rough decision confidence, which comprises the following steps: step 1, preprocessing the data and generating the preprocessed data set DOC; step 2, selecting the features of the data set according to the feature selection algorithm; step 3, selecting the features according to the random walk features; and step 3, generating the special features according to the random walk features The results of the selection are analyzed by lexical analysis; Step 4, the candidate attributes of the text are obtained, and the emotion decision table is established; Step 5, the discretization of the decision table is formed by using rough set knowledge; Step 6, the final emotion classification of the discretization decision table is determined by rough decision confidence. The invention uses random walk feature and rough decision confidence to solve the problem of judging the polarity of emotional words in the process of text classification, and makes correct classification judgment for emotional generation of feature text.
【技术实现步骤摘要】
基于随机游走和粗糙决策置信度的文本情感分类方法
本专利技术涉及智能信息处理领域,具体涉及到自然语言情感词极性的产生方法,尤其涉及基于随机游走和粗糙决策置信度的文本情感分类方法。
技术介绍
随机游走特征是针对浏览网页的用户行为建立的抽象概念特征。把它用在对词汇网络的构建中,通过对每个节点表示并确定其词汇极性,并且可以有两个标签:正或负。对于随机游走特征在情感词极性判别上的应用,最重要的是需要构建词的图框架,将数据映射成随机游走图,在图框架中加入词间的相关关系,进而得到对未知词极性的判别。粗糙集的离散化方法具有一定的特点,必须满足决策系统离散化的一致性要求。粗糙集理论包含了对信息系统的约简,通过去除冗余信息,完成对规则的提取,实现在没有任何先验知识基础上的系统分类。在连续属性离散化的过程中,也包含了对决策表的约简,通过选择切割点并且合并相邻间隔区间,得到决策表中条件属性的约简。通过离散化后的决策表可以获得知识系统中的隐含数据,即决策规则,以此增加对新对象匹配的可能性。一般地,在文本数据处理过程中,不可避免的会出现“维数灾难”问题,在文本向量空间中,维数灾难问题就转化为了高维特征空间的线性划分问题,其维数的增加就会导致数据稀疏,从而引出属性值匹配困难,这也是本专利技术需要解决的问题。
技术实现思路
针对现有技术的缺陷,本专利技术提出了基于随机游走和粗糙决策置信度的文本情感分类方法,利用随机游走特征和粗糙决策置信度解决文本分类过程中情感词极性的判别问题,对于特征文本的情感产生做出正确的类别判断。为实现上述目的,本专利技术提出基于随机游走和粗糙决策置信度的文本情感分类方 ...
【技术保护点】
1.基于随机游走和粗糙决策置信度的文本情感分类方法,其特征在于,包括如下步骤:步骤一,对数据进行预处理,生成预处理后的数据集DOC;步骤二,根据特征选择算法,对数据集进行特征选择;步骤三,根据随机游走特征对特征选择的结果进行词性分析,输出结果为词汇的情感词极性Sentiment(w),归一化节点之外边的权重,权重值通过随机游走结束次数的百分比进行调整;步骤四,根据步骤二所得到的特征选择结果,结合步骤三得到的权重值,获取文本候选属性,建立情感决策表;步骤五,根据步骤四所得到的情感决策表,运用粗糙集知识,对其进行离散化处理形成离散化决策表;步骤六,根据步骤五所得到的离散化决策表,通过粗糙决策置信度,对离散化决策表进行最终情感类别判定。
【技术特征摘要】
1.基于随机游走和粗糙决策置信度的文本情感分类方法,其特征在于,包括如下步骤:步骤一,对数据进行预处理,生成预处理后的数据集DOC;步骤二,根据特征选择算法,对数据集进行特征选择;步骤三,根据随机游走特征对特征选择的结果进行词性分析,输出结果为词汇的情感词极性Sentiment(w),归一化节点之外边的权重,权重值通过随机游走结束次数的百分比进行调整;步骤四,根据步骤二所得到的特征选择结果,结合步骤三得到的权重值,获取文本候选属性,建立情感决策表;步骤五,根据步骤四所得到的情感决策表,运用粗糙集知识,对其进行离散化处理形成离散化决策表;步骤六,根据步骤五所得到的离散化决策表,通过粗糙决策置信度,对离散化决策表进行最终情感类别判定。2.根据权利要求1所述的文本情感分类方法,其特征在于:步骤一中的数据预处理包括分词和词性抽取;步骤二中的特征选择算法为SM-CHI=LF(t)*CHI(t)*SM(t),其中,若t属于停用词并且在部分语篇中不属于动词、名词、形容词,则LF(t)=0,否则LF(t)=1;CHI(t)为卡方值;SM(t)代表单词t是否是同义词,如果是,则合并所有它的同义词。3.根据权利要求2所述的文本情感分类方法,其特征在于:在步骤三中通过随机游走特征对特征选择的结果进行词性分析,并在步骤三中进行游走结束后的权重调整,调整方法为:其中,Pij表示从节点i到节点j归一化后的游走权重,Wkmin表示K...
【专利技术属性】
技术研发人员:柴玉梅,韩飞,王黎明,张卓,徐源音,李永帅,韩慧,
申请(专利权)人:郑州大学,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。