This invention provides a method of text data abstract mining based on topic diversity, which includes the following steps: step S1: preprocessing topic text; step S2: input topic corpus and background corpus; step S3: extracting topic attributes of topic corpus; step S4: add feelings to the topic attributes obtained. The sense polarity is used to quantify the sentence; step S5: the topic attribute is used as the evaluation object, and the emotional analysis method of the dynamic word sequence oriented to the multi evaluation object is used to analyze the emotional polarity of the evaluation object contained in the sentence, and the emotional attribute features of the sentence are obtained, and the character of a sentence is quantified; S6: use the text sentence feature vectors obtained by step S5 to construct the diversity objective function. It can efficiently and accurately get the summarization of topic text and can be applied to larger scale data set application scenarios.
【技术实现步骤摘要】
一种基于话题多样性的文本数据观点摘要挖掘方法
本专利技术涉及文本摘要、情感分析领域,更具体地,涉及一种对中文微博语料的海量话题文本数据生成带有富含用户情感信息的简短的观点摘要,观点摘要能够准确地覆盖文本所讨论的重点内容,并能够应用于新闻摘要、商品评论摘要等实际应用场景。
技术介绍
当前,有很多技术方法可用于观点摘要领域的研究。传统的观点摘要模型包括图模型和排序模型。图模型的代表方法有Textrank、PageRank、LexRank等方法,它们利用句子作为节点,句子与句子之间的某种关系作为边的权重,通过随机游走模型对句子的得分做迭代更新计算,从而实现对句子的评分,选择一定数量得分高的句子组合成观点摘要,而排序模型从观点摘要的多样性、冗余性等考虑因素出发,构建句子评分函数实现对句子的评分,或利用KL散度、MMR方法对句子做一个相对的分数排序,通过分数排序得到观点摘要。其中这两种方法都忽略了更细粒度的文本话题属性,通过文本中所有单词的多样性考虑文本主旨的多样性,没有考虑文本主旨关键词对观点摘要的影响,在一定程度上限制了模型的后续研究。当前,国内外研究学者纷纷对此展开研究,提出了生成式的观点摘要模型和基于次模函数的观点摘要模型。其中,生成式观点摘要模型根据观点摘要的多样性、文本信息冗余性等要素来考虑理想的观点摘要,将文本句子分词,通过遍历组合的方式将所有的单词通过不同的组合生成新的句子或简短的文本,将最终符合要求的单词组合形式作为最终的观点摘要,该方法具有较好的效果,但算法求解的时间复杂度过高,对于较短的数据集都要花数倍其他方法的时间,同样无法应用在大数据背景下 ...
【技术保护点】
1.一种基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:包括以下步骤:步骤S1:对话题文本进行预处理,过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词;步骤S2:输入话题语料集和背景语料集;步骤S3:提取话题语料集的话题属性;步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;步骤S5:将步骤S3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化;步骤S6:利用步骤S5得到的文本句子特征向量构建多样性目标函数。
【技术特征摘要】
1.一种基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:包括以下步骤:步骤S1:对话题文本进行预处理,过滤掉无实质内容、无任何意义的不相关文本以及常见的停用词;步骤S2:输入话题语料集和背景语料集;步骤S3:提取话题语料集的话题属性;步骤S4:将步骤S3得到的话题属性添加情感极性,情感极性包括正面情感、负面情感,由此将正面话题属性和负面话题属性作为情感属性特征,用于对句子向量化;步骤S5:将步骤S3得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,句子包含情感属性特征则相应特征值为1,不包含则特征则值为0,如此通过话题属性和情感分析方法将一个句子进行特征向量化;步骤S6:利用步骤S5得到的文本句子特征向量构建多样性目标函数。2.根据权利要求1所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:步骤S1中的过滤规则如下:(1)、去除评论句子中的网页链接;(2)、去除字符长度小于3的评论句子;(3)、去除评论句子中的常用不相关词;(4)、将所有英文表成小写或大写。3.根据权利要求1所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:步骤S2包括以下步骤:针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集。4.根据权利要求1所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:步骤S3借助对数似然比方法,计算话题语料集中的单词的对数似然比值,并利用阈值对单词进行过滤,提取话题语料集的话题属性,其中单词词性要求必须是名词、形容词、动词、数词。5.根据权利要求1所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:步骤S4中包括以下具体步骤:将得到的话题属性作为评价对象,利用面向多评价对象的动态词序列情感分析方法分析评价对象在句子中的情感极性,给话题属性分别加上正面、负面情感极性,分别得到正面的话题属性和负面的话题属性。6.根据权利要求5所述的基于话题多样性的文本数据观点摘要挖掘方法,其特征在于:将步骤S4中带有情感的话题属性作为情感...
【专利技术属性】
技术研发人员:廖祥文,陈国龙,赵楠,杨定达,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。