The invention provides a text data abstract mining method which combines topic attributes and emotional information, including: preprocessing the text corpus of topic; input topic corpus and background corpus set; extract topic attributes of topic corpus; add emotional polarity to topic attributes and quantify sentences; The topic attribute is used as the evaluation object, and the emotional attribute features of the sentence are obtained. A sentence is quantized by the topic attribute and the emotion analysis method. The three layer graph structure is constructed by using the set of topic attributes and the feature vector set S of the text sentence, and all the text sentences are clustered; from the class cluster. Choose a sentence to form a summary of your views and select high score sentences to form a summary of your views. The invention makes the topic attributes extracted by the extraction of topic attribute method more accurate, which also makes it not only applied to the field of Chinese micro-blog, but also can be used in the field of website news and commodity reviews.
【技术实现步骤摘要】
一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
本专利技术涉及文本摘要、情感分析领域,更具体地,涉及一种对中文微博语料的海量话题文本数据生成带有富含用户情感信息的简短的观点摘要,观点摘要能够准确地覆盖文本所讨论的重点内容,并能够应用于新闻摘要、商品评论分析等实际应用场景。
技术介绍
当前,有很多技术方法可用于观点摘要领域的研究。传统的观点摘要模型包括图模型和排序模型。图模型的代表方法有Textrank、PageRank、LexRank等方法,它们利用句子作为节点,句子与句子之间的某种关系作为边的权重,通过随机游走模型对句子的得分做迭代更新计算,从而实现对句子的评分,选择一定数量得分高的句子组合成观点摘要,而排序模型从观点摘要的多样性、冗余性等考虑因素出发,构建句子评分函数实现对句子的评分,或利用KL散度、MMR方法对句子做一个相对的分数排序,通过分数排序得到观点摘要。其中这两种方法都忽略了更细粒度的文本话题属性,并没有在图结构中融合话题属性的细粒度情感信息,在一定程度上。当前,国内外研究学者纷纷对此展开研究,提出了生成式的观点摘要模型和基于次模函数的观点摘要模型。其中,生成式观点摘要模型根据观点摘要的多样性、文本信息冗余性等要素来考虑理想的观点摘要,将文本句子分词,通过遍历组合的方式将所有的单词通过不同的组合生成新的句子或简短的文本,将最终符合要求的单词组合形式作为最终的观点摘要,该方法具有较好的效果,但算法求解的时间复杂度过高,对于较短的数据集都要花数倍其他方法的时间,同样无法应用在大数据背景下的实际场景。而基于次模函数的观点摘要方法通过次模函数性 ...
【技术保护点】
1.一种融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:包括以下步骤:步骤S1:对话题的文本语料集进行预处理,清理一些不相关的词;步骤S2:输入话题语料集和背景语料集;步骤S3:利用对数似然比方法提取话题语料集的话题属性;步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;步骤S5:将步骤3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化,并把文本句子中所有的正面话题属性用
【技术特征摘要】
1.一种融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:包括以下步骤:步骤S1:对话题的文本语料集进行预处理,清理一些不相关的词;步骤S2:输入话题语料集和背景语料集;步骤S3:利用对数似然比方法提取话题语料集的话题属性;步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;步骤S5:将步骤3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化,并把文本句子中所有的正面话题属性用表示,负面话题属性集合用表示;步骤S6:利用步骤S5得到的、、文本句子特征向量集合S构建三层图结构,利用图的连通性,三层图网络变成各个独立的图,每个图中的句子就形成一个类簇,从而把所有文本句子聚类;步骤S7:从类簇中挑选句子组成观点摘要,提出基于图聚类的观点句子选择方法,定义观点句子评分函数,函数考虑句子包含的情感话题属性因素、情感话题属性被包含的句子个数因素及句子的情感信息因素,利用观点句子评分函数对类簇中句子进行评分,从每个类簇中挑选得分高的句子组成观点摘要。2.根据权利要求1所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:步骤S1中数据预处理过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词;防止在后续步骤提取话题属性中的影响其结果,过滤规则由如下:(1)去除评论句子中的网页链接;(2)去除字符长度小于3的评论句子;(3)去除评论句子中的常用不相关词;(4)将所有英文表成小写。3.根据权利要求1所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:步骤S2中针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集,步骤S3中借助对数似然比方法,计算话题语料集中的单词的对数似然比值,并利用阈值对单词进行过滤,其中单词词性要求必须是名词、形容词、动...
【专利技术属性】
技术研发人员:廖祥文,陈国龙,赵楠,杨定达,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。