当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于话题多样性的文本数据观点摘要挖掘方法技术

技术编号:18426615 阅读:33 留言:0更新日期:2018-07-12 02:03
本发明专利技术提供一种基于话题多样性的文本数据观点摘要挖掘方法,其包括以下步骤:步骤S1:对话题文本进行预处理;步骤S2:输入话题语料集和背景语料集;步骤S3:提取话题语料集的话题属性;步骤S4:将得到的话题属性添加情感极性,用于对句子向量化;步骤S5:将得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,将一个句子进行特征向量化;步骤S6:利用步骤S5得到的文本句子特征向量构建多样性目标函数。能够高效准确地得到话题文本的观点摘要,并且能够应用于更大规模数据集应用场景。

A method for mining summarization of text data based on topic diversity

This invention provides a method of text data abstract mining based on topic diversity, which includes the following steps: step S1: preprocessing topic text; step S2: input topic corpus and background corpus; step S3: extracting topic attributes of topic corpus; step S4: add feelings to the topic attributes obtained. The sense polarity is used to quantify the sentence; step S5: the topic attribute is used as the evaluation object, and the emotional analysis method of the dynamic word sequence oriented to the multi evaluation object is used to analyze the emotional polarity of the evaluation object contained in the sentence, and the emotional attribute features of the sentence are obtained, and the character of a sentence is quantified; S6: use the text sentence feature vectors obtained by step S5 to construct the diversity objective function. It can efficiently and accurately get the summarization of topic text and can be applied to larger scale data set application scenarios.

【技术实现步骤摘要】
一种基于话题多样性的文本数据观点摘要挖掘方法
本专利技术涉及文本摘要、情感分析领域,更具体地,涉及一种对中文微博语料的海量话题文本数据生成带有富含用户情感信息的简短的观点摘要,观点摘要能够准确地覆盖文本所讨论的重点内容,并能够应用于新闻摘要、商品评论摘要等实际应用场景。
技术介绍
当前,有很多技术方法可用于观点摘要领域的研究。传统的观点摘要模型包括图模型和排序模型。图模型的代表方法有Textrank、PageRank、LexRank等方法,它们利用句子作为节点,句子与句子之间的某种关系作为边的权重,通过随机游走模型对句子的得分做迭代更新计算,从而实现对句子的评分,选择一定数量得分高的句子组合成观点摘要,而排序模型从观点摘要的多样性、冗余性等考虑因素出发,构建句子评分函数实现对句子的评分,或利用KL散度、MMR方法对句子做一个相对的分数排序,通过分数排序得到观点摘要。其中这两种方法都忽略了更细粒度的文本话题属性,通过文本中所有单词的多样性考虑文本主旨的多样性,没有考虑文本主旨关键词对观点摘要的影响,在一定程度上限制了模型的后续研究。当前,国内外研究学者纷纷对此展开研究,提出了生成式的观点摘要模型和基于次模函数的观点摘要模型。其中,生成式观点摘要模型根据观点摘要的多样性、文本信息冗余性等要素来考虑理想的观点摘要,将文本句子分词,通过遍历组合的方式将所有的单词通过不同的组合生成新的句子或简短的文本,将最终符合要求的单词组合形式作为最终的观点摘要,该方法具有较好的效果,但算法求解的时间复杂度过高,对于较短的数据集都要花数倍其他方法的时间,同样无法应用在大数据背景下的实际场景。而基于次模函数的观点摘要方法通过次模函数性质,利用贪心算法保证得到的局部解可以不低于最优解的63%,其贪心算法考虑了多种要素的情况挑选句子,虽然实验效果相对较好,但手动构建语料本体树的方式并不适用于更为广泛的应用场景。一般而言,观点摘要的两个基础性质是:1)保证得到的摘要囊括话题文本主旨;2)得到的摘要应该覆盖富有情感色彩的话题主旨。不足的是,现有的多数模型考虑利用文本句子所有单词的多样性来保证观点摘要涵盖文本主旨,通过单词的多样性来保证摘要的多样性,但单词的多样性并不能保证观点摘要囊括了源文本的主旨,与主旨不相关的单词会影响最终生成的观点摘要,而且现有研究方法通过整个文本句子的情感信息从而刻画摘要情感信息,许多不相关文本主旨的情感也被考虑进来,这两者因素导致最终得到的摘要包含许多与文本主旨不相关的内容和情感信息。因此,人们迫切希望能有一种更加高效准确的观点摘要研究方法,该方法通过实体抽取方法从源文本中提取话题属性单词作为文本主旨关键词,结合情感分析研究方法来研究每个句子中关于以话题属性为评价对象的情感信息,并通过融合句子重要性的话题属性多样性方法来挑选句子组合成观点摘要,使得整个观点摘要包含的带情感信息的文本主旨最多。
技术实现思路
本专利技术的目的是解决海量观点文本数据的压缩问题,提出一种基于话题多样性的观点摘要方法,从话题属性及其情感信息出发解决当前研究方法存在的问题,能够高效准确地得到话题文本的观点摘要,并且能够应用于更大规模数据集应用场景。为实现上述目的,本专利技术采用以下技术方案:一种基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:包括以下步骤:步骤S1:对话题文本进行预处理,过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词;步骤S2:输入话题语料集和背景语料集;步骤S3:提取话题语料集的话题属性;步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;步骤S5:将步骤S3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化;步骤S6:利用步骤S5得到的文本句子特征向量构建多样性目标函数。在本专利技术一实施例中,步骤S1中的过滤规则如下:(1)、去除评论句子中的网页链接;(2)、去除字符长度小于3的评论句子;(3)、去除评论句子中的常用不相关词;(4)、将所有英文表成小写或大写。在本专利技术一实施例中,步骤S2包括以下步骤:针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集。在本专利技术一实施例中,步骤S3借助对数似然比方法,计算话题语料集中的单词的对数似然比值,并利用阈值对单词进行过滤,提取话题语料集的话题属性,其中单词词性要求必须是名词、形容词、动词、数词。在本专利技术一实施例中,步骤S4中包括以下具体步骤:将得到的话题属性作为评价对象,利用面向多评价对象的动态词序列情感分析方法分析评价对象在句子中的情感极性,给话题属性分别加上正面、负面情感极性,分别得到正面的话题属性和负面的话题属性。进一步的,将步骤S4中带有情感的话题属性作为情感话题属性,并作为特征用于步骤S6的句子特征向量化;其中面向多评价对象的动态词序列情感分析方法是基于情感词典的词袋模型,主要分为两步:第一步利用动态词序列的方法切割句子词序列,得到句子中包含的每个评价对象的词序列;第二步利用情感词典匹配每个评价对象的词序列情感词,利用情感词的极性和权重计算该评价对象的情感倾向,根据句子中的话题属性和情感极性得到句子特征向量;其中词序列的方法流程简述如下:步骤S41:确定评价对象在句子中的位置;针对每一个句子,以话题属性集合中的话题属性为评价对象,按照句子前到后的方向确定各个评价对象在句子中的位置,位置从小到大;步骤S42:以句子中评价对象的位置为中心向左右两个方向扩展,直到遇到标点符号或其他评价对象;若向左或向右遇到标点符号,则截取标点符号到评价对象内的左词序列或右词序列;若向左或向右遇到其他评价对象,则取两个评价对象的位置坐标的中间坐标,截取中间坐标到评价对象位置的词序列作为左词序列或右词序列;步骤S423:经过上述步骤后得到某一评价对象的左词序列和右词序列,左词序列和右词序列合并得到该评价对象完整的词序列,其中是评价对象,做情感分析时去掉,参数范围,两者具体的值是动态变化的,没有固定值,对于两个不同词序列存在两者的参数值不一样;同时,对于任意两个动态词序列和,满足条件,即两个词序列没有重合的单词序列。在本专利技术一实施例中,步骤S6中构建多样性目标函数,目标函数保证挑选一定数量的句子集合包含的情感话题属性最多,将此句子集合作为观点摘要,由此保证最终得到的观点摘要多样性最好。在本专利技术一实施例中,目标函数的构建包括以下步骤:首先构建融合话题多样性和句子重要性的观点句子评分函数,评分函数中考虑句子与摘要集合之间的话题属性差异,并融合句子的重要性,利用话题属性权重和句子包含的话题属性得到句子的重要性,每次选择使得观点摘要集合话题多样性增加最大的句子加入到观点摘要中,其中句子数量限制在20个以内或者以一定的压缩比来限制句子的个数。与现有技术方案相比,本专利技术具有以下有益效果:1、对数据进行预处理,使应用更加广泛,本专利技术在原始数据的基础上,将数据进行清理操作,过滤不相关文本文档来自技高网
...

【技术保护点】
1.一种基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:包括以下步骤:步骤S1:对话题文本进行预处理,过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词;步骤S2:输入话题语料集和背景语料集;步骤S3:提取话题语料集的话题属性;步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;步骤S5:将步骤S3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化;步骤S6:利用步骤S5得到的文本句子特征向量构建多样性目标函数。

【技术特征摘要】
1.一种基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:包括以下步骤:步骤S1:对话题文本进行预处理,过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词;步骤S2:输入话题语料集和背景语料集;步骤S3:提取话题语料集的话题属性;步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;步骤S5:将步骤S3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化;步骤S6:利用步骤S5得到的文本句子特征向量构建多样性目标函数。2.根据权利要求1所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:步骤S1中的过滤规则如下:(1)、去除评论句子中的网页链接;(2)、去除字符长度小于3的评论句子;(3)、去除评论句子中的常用不相关词;(4)、将所有英文表成小写或大写。3.根据权利要求1所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:步骤S2包括以下步骤:针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集。4.根据权利要求1所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:步骤S3借助对数似然比方法,计算话题语料集中的单词的对数似然比值,并利用阈值对单词进行过滤,提取话题语料集的话题属性,其中单词词性要求必须是名词、形容词、动词、数词。5.根据权利要求1所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:步骤S4中包括以下具体步骤:将得到的话题属性作为评价对象,利用面向多评价对象的动态词序列情感分析方法分析评价对象在句子中的情感极性,给话题属性分别加上正面、负面情感极性,分别得到正面的话题属性和负面的话题属性。6.根据权利要求5所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:将步骤S4中带有情感的话题属性作为情感...

【专利技术属性】
技术研发人员:廖祥文陈国龙赵楠杨定达
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1