当前位置: 首页 > 专利查询>福州大学专利>正文

一种融合话题属性和情感信息的文本数据观点摘要挖掘方法技术

技术编号:18458845 阅读:23 留言:0更新日期:2018-07-18 12:43
本发明专利技术提供一种融合话题属性和情感信息的文本数据观点摘要挖掘方法,包括:对话题的文本语料集进行预处理;输入话题语料集和背景语料集;提取话题语料集的话题属性;将得到的话题属性添加情感极性,对句子向量化;将得到的话题属性作为评价对象,得出句子包含的情感属性特征,通过话题属性和情感分析方法将一个句子进行特征向量化;利用得到的话题属性集合、文本句子特征向量集合S构建三层图结构,把所有文本句子聚类;从类簇中挑选句子组成观点摘要,挑选得分高的句子组成观点摘要。本发明专利技术使得采用提取话题属性方法提取的话题属性更为精准,同样使其不仅仅应用与中文微博领域,更可以用于网站新闻、商品评论领域。

A method of mining summarization of text data based on topic attribute and sentiment information

The invention provides a text data abstract mining method which combines topic attributes and emotional information, including: preprocessing the text corpus of topic; input topic corpus and background corpus set; extract topic attributes of topic corpus; add emotional polarity to topic attributes and quantify sentences; The topic attribute is used as the evaluation object, and the emotional attribute features of the sentence are obtained. A sentence is quantized by the topic attribute and the emotion analysis method. The three layer graph structure is constructed by using the set of topic attributes and the feature vector set S of the text sentence, and all the text sentences are clustered; from the class cluster. Choose a sentence to form a summary of your views and select high score sentences to form a summary of your views. The invention makes the topic attributes extracted by the extraction of topic attribute method more accurate, which also makes it not only applied to the field of Chinese micro-blog, but also can be used in the field of website news and commodity reviews.

【技术实现步骤摘要】
一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
本专利技术涉及文本摘要、情感分析领域,更具体地,涉及一种对中文微博语料的海量话题文本数据生成带有富含用户情感信息的简短的观点摘要,观点摘要能够准确地覆盖文本所讨论的重点内容,并能够应用于新闻摘要、商品评论分析等实际应用场景。
技术介绍
当前,有很多技术方法可用于观点摘要领域的研究。传统的观点摘要模型包括图模型和排序模型。图模型的代表方法有Textrank、PageRank、LexRank等方法,它们利用句子作为节点,句子与句子之间的某种关系作为边的权重,通过随机游走模型对句子的得分做迭代更新计算,从而实现对句子的评分,选择一定数量得分高的句子组合成观点摘要,而排序模型从观点摘要的多样性、冗余性等考虑因素出发,构建句子评分函数实现对句子的评分,或利用KL散度、MMR方法对句子做一个相对的分数排序,通过分数排序得到观点摘要。其中这两种方法都忽略了更细粒度的文本话题属性,并没有在图结构中融合话题属性的细粒度情感信息,在一定程度上。当前,国内外研究学者纷纷对此展开研究,提出了生成式的观点摘要模型和基于次模函数的观点摘要模型。其中,生成式观点摘要模型根据观点摘要的多样性、文本信息冗余性等要素来考虑理想的观点摘要,将文本句子分词,通过遍历组合的方式将所有的单词通过不同的组合生成新的句子或简短的文本,将最终符合要求的单词组合形式作为最终的观点摘要,该方法具有较好的效果,但算法求解的时间复杂度过高,对于较短的数据集都要花数倍其他方法的时间,同样无法应用在大数据背景下的实际场景。而基于次模函数的观点摘要方法通过次模函数性质,利用贪心算法保证得到的局部解可以不低于最优解的63%,其贪心算法考虑了多种要素的情况挑选句子,虽然实验效果相对较好,但手动构建语料本体树的方式并不适用于更为广泛的应用场景。一般而言,观点摘要的两个基础性质是:1)保证得到的摘要覆盖话题文本主旨;2)得到的摘要覆盖富有情感色彩的话题主旨。不足的是,现有的多数图模型考虑利用文本句子和话题特征来构建图结构,并且通过整个文本句子的情感信息刻画观点摘要的情感信息,没有在图结构中融合话题属性的情感信息,没有考虑不同情感的话题特征是两个不同含义的主体,导致包含不同情感话题属性的句子被关联起来。因此,人们迫切希望能有一种更加高效准确的观点摘要研究方法,该方法通过实体抽取方法从源文本中提取话题属性单词作为文本主旨关键词,结合情感分析研究方法来研究每个句子中关于以话题属性为评价对象的情感信息,并将带情感信息的话题属性融入到图结构中。
技术实现思路
本专利技术的目的是解决从海量观点文本数据的抽取观点句子的问题,提出一种融合话题属性情感信息的观点摘要方法,从话题属性及其情感信息出发解决当前研究方法存在的问题,能够高效准确地得到话题文本的观点摘要,并且能够应用于更大规模数据集应用场景。为实现上述目的,本专利技术采用以下技术方案:一种融合话题属性和情感信息的文本数据观点摘要挖掘方法,其包括以下步骤:步骤S1:对话题的文本语料集进行预处理,清理一些不相关的词;步骤S2:输入话题语料集和背景语料集;步骤S3:利用对数似然比方法提取话题语料集的话题属性;步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;步骤S5:将步骤3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化,并把文本句子中所有的正面话题属性用表示,负面话题属性集合用表示;步骤S6:利用步骤S5得到的、、文本句子特征向量集合S构建三层图结构,利用图的连通性,三层图网络变成各个独立的图,每个图中的句子就形成一个类簇,从而把所有文本句子聚类;步骤S7:从类簇中挑选句子组成观点摘要,提出基于图聚类的观点句子选择方法,定义观点句子评分函数,函数考虑句子包含的情感话题属性因素、情感话题属性被包含的句子个数因素及句子的情感信息因素,利用观点句子评分函数对类簇中句子进行评分,从每个类簇中挑选得分高的句子组成观点摘要。在本专利技术一实施例中,步骤S1中数据预处理过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词;防止在后续步骤提取话题属性中的影响其结果,过滤规则由如下:(1)去除评论句子中的网页链接;(2)去除字符长度小于3的评论句子;(3)去除评论句子中的常用不相关词;(4)将所有英文表成小写。在本专利技术一实施例中,步骤S2中针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集,步骤S3中借助对数似然比方法,计算话题语料集中的单词的对数似然比值,并利用阈值对单词进行过滤,其中单词词性要求必须是名词、形容词、动词、数词,提取话题语料集的话题属性。在本专利技术一实施例中,步骤S5中面向多评价对象的动态词序列方法是基于情感词典的词袋模型,主要分为两步:第一步利用动态词序列的方法切割句子词序列,得到句子中包含的每个评价对象的词序列;第二步利用情感词典匹配每个评价对象的词序列情感词,利用情感词的极性和权重计算该评价对象的情感倾向,根据句子中的话题属性和情感极性得到句子特征向量,文本句子特征向量集合表示为S。在本专利技术一实施例中,步骤S5中词序列的方法流程如下:步骤S51:确定评价对象在句子中的位置,针对每一个句子,以话题属性集合A中的话题属性为评价对象,按照句子前到后的方向确定各个评价对象在句子中的位置,位置从小到大;步骤S52:以句子中评价对象的位置为中心向左右两个方向扩展,直到遇到标点符号或其他评价对象;步骤S53:若向左或向右遇到标点符号,则截取标点符号到评价对象内的左词序列或右词序列;步骤S54:若向左或向右遇到其他评价对象,则取两个评价对象的位置坐标的中间坐标,截取中间坐标到评价对象位置的词序列作为左词序列或右词序列;步骤S55:经过上述步骤后得到某一评价对象的左词序列和右词序列,左词序列和右词序列合并得到该评价对象完整的词序列,其中是评价对象,做情感分析时去掉,参数范围,两者具体的值是动态变化的,没有固定值,对于两个不同词序列存在两者的参数值不一样;同时,对于任意两个动态词序列和,满足条件,即两个词序列没有重合的单词序列。在本专利技术一实施例中,步骤S7中利用基于图聚类的观点句子选择方法来挑选句子,首先定义观点句子评分函数,利用评分函数对类簇中的句子评分并排序,从每个类簇中选择排序靠前的句子组成观点摘要,其中句子数量限制在20个以内或者以一定的压缩比来限制句子的个数;其中观点句子评分函数考虑三个因素:句子包含的情感话题属性个数、情感话题属性被包含的句子个数、句子的情感信息;针对这三者得到线性评分函数。与现有技术相比,本专利技术具有以下优点:1、数据的预处理,为了使应用更加广泛,本专利技术在原始数据的基础上,将数据进行清理操作,过滤不相关文本,使得采用提取话题属性方法提取的话题属性更为精准,同样使其不仅仅应用与中文微博领域,更可以用于网站新闻、商品评论领域。2、在模型中考虑话题属性的情感极本文档来自技高网
...

【技术保护点】
1.一种融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:包括以下步骤:步骤S1:对话题的文本语料集进行预处理,清理一些不相关的词;步骤S2:输入话题语料集和背景语料集;步骤S3:利用对数似然比方法提取话题语料集的话题属性;步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;步骤S5:将步骤3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化,并把文本句子中所有的正面话题属性用

【技术特征摘要】
1.一种融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:包括以下步骤:步骤S1:对话题的文本语料集进行预处理,清理一些不相关的词;步骤S2:输入话题语料集和背景语料集;步骤S3:利用对数似然比方法提取话题语料集的话题属性;步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;步骤S5:将步骤3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化,并把文本句子中所有的正面话题属性用表示,负面话题属性集合用表示;步骤S6:利用步骤S5得到的、、文本句子特征向量集合S构建三层图结构,利用图的连通性,三层图网络变成各个独立的图,每个图中的句子就形成一个类簇,从而把所有文本句子聚类;步骤S7:从类簇中挑选句子组成观点摘要,提出基于图聚类的观点句子选择方法,定义观点句子评分函数,函数考虑句子包含的情感话题属性因素、情感话题属性被包含的句子个数因素及句子的情感信息因素,利用观点句子评分函数对类簇中句子进行评分,从每个类簇中挑选得分高的句子组成观点摘要。2.根据权利要求1所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:步骤S1中数据预处理过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词;防止在后续步骤提取话题属性中的影响其结果,过滤规则由如下:(1)去除评论句子中的网页链接;(2)去除字符长度小于3的评论句子;(3)去除评论句子中的常用不相关词;(4)将所有英文表成小写。3.根据权利要求1所述的融合话题属性和情感信息的文本数据观点摘要挖掘方法,其特征在于:步骤S2中针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集,步骤S3中借助对数似然比方法,计算话题语料集中的单词的对数似然比值,并利用阈值对单词进行过滤,其中单词词性要求必须是名词、形容词、动...

【专利技术属性】
技术研发人员:廖祥文陈国龙赵楠杨定达
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1