基于LDA的网络舆情文档自动摘要方法技术

技术编号:19543736 阅读:27 留言:0更新日期:2018-11-24 20:36
本发明专利技术公开了基于LDA的网络舆情文档自动摘要方法,包括步骤:确定需要抽取的摘要个数n;利用训练文档集产生LDA主题模型;将文档分成句子存入数组Sens中;建立一个空的数组Sums;遍历语料集中的每一个句子,计算句子的MMR权重,句子和数组间的相似度,相似度用来解释MMR权重公式;遍历完成后,选择Sens中MMR权重最大的句子,加入Sums,并从Sens中剔除;如果Sums中的句子个数等于要抽取的摘要个数n,则进入下一步骤,否则返回上一步骤;输出Sums中的句子,作为本次自动摘要的结果。本发明专利技术通过基于LDA的相似度计算方法,提高了摘要句与主题的相关性;平衡了相关性和多样性,对于网络舆情文档等多主题的文档具有非常好的效果。

LDA-based Automatic Summarization Method of Network Public Opinion Documents

The invention discloses an automatic summarization method of network public opinion documents based on LDA, including steps: determining the number of abstracts to be extracted n; generating LDA topic model by using training document set; dividing documents into sentences and storing them in array Sens; establishing an empty array Sums; traversing every sentence in corpus set and calculating MMR of sentences. Weight, similarity between sentences and arrays, similarity is used to explain the MMR weight formula; after traversal, select the sentences with the largest MMR weight in Sens, add Sums and remove them from Sens; if the number of sentences in Sums equals the number of abstracts to be extracted n, enter the next step, or return to the previous step; As a result of this automatic summary. By calculating the similarity based on LDA, the method improves the correlation between abstract sentences and topics, balances the correlation and diversity, and has a very good effect on multi-topic documents such as network public opinion documents.

【技术实现步骤摘要】
基于LDA的网络舆情文档自动摘要方法
本专利技术属于机器学习和自动摘要
,具体涉及基于LDA的网络舆情文档自动摘要方法。
技术介绍
自动摘要是指从文档中抽取能准确全面地反映文档中心内容的简洁连贯的句子或短文。对于网络舆情文档而言,其文档内容表达的主题信息通常并不单一,可能围绕一个核心主题,并向外发散了若干个非核心主题,或者说子主题,是一个“1+N”的模式。传统的自动摘要方法只计算文档的句子的重要性,没有反映文档核心主题和非核心主题在文档中的分布信息和重要程度,更没有对文档的主题特征进行提取分析处理,并且在摘要句的抽取过程中,不能消除重复或者相似程度较高的句子对摘要的影响,因此很难处理网络舆情文档。传统自动摘要方法对网络舆情文档处理的不足,其主要是未能平衡相关性和多样性;相关性是指与原文档主题的相关程度,相关性越大就越能反映文档的主题信息。而多样性则是评价摘要与原文档的多个主题的覆盖程度,多样性越大就越能全面覆盖到文档的各个主题,防止摘要过度集中在核心主题,而忽视了非核心主题在文档中的作用。为了解决以上问题我方研发出了一种基于LDA的网络舆情文档自动摘要方法。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于LDA的网络舆情文档自动摘要方法,利用LDA反映句子之间的主题相似度,并通过MMR去除摘要句子的冗余。本专利技术通过以下技术方案来实现上述目的:基于LDA的网络舆情文档自动摘要方法,包括以下步骤:(1)确定需要抽取的摘要个数n,进入下一步骤;(2)利用训练文档集产生LDA主题模型,进入下一步骤;(3)将文档分成句子存入数组Sens中,进入下一步骤;(4)建立一个空的数组Sums,进入下一步骤;(5)遍历语料集中的每一个句子,计算句子的MMR权重,公式如下所示:MMR(Si)=λ·Sim(Si,Sens-i)-(1-λ)·Sim(Si,Sums)式中的Si表示语料集中第i个句子;λ∈[0,1],是人工设置的参数,可以根据测试文档来选取合适的值;Sens-i即Sens中除去Si;Sim(Sentence,List)是句子Sentence和数组List间的相似度,其计算公式如下:其中p和q是通过步骤(2)中训练好的LDA主题模型,分别将句子Sentence和数组List映射成主题空间的概率分布p=[p1,p2,...,pK]和q=[q1,q2,...,qK],K为训练的LDA主题模型的主题个数;相似度用来解释MMR权重公式;进入下一步骤;(6)遍历完成后,选择Sens中MMR权重最大的句子,加入Sums,并从Sens中剔除;如果Sums中的句子个数等于要抽取的摘要个数n,则进入下一步骤,否则返回步骤(5);(7)输出Sums中的句子,作为本次自动摘要的结果。具体地,步骤(2)中训练文档是利用网络爬虫从互联网中爬取的网络文档。本专利技术的有益效果在于:本专利技术的基于LDA的网络舆情文档自动摘要方法:1、通过MMR将传统自动摘要“一步到位”(只通过一次计算就抽取全部摘要)的过程改造成最优化过程,提高了可靠性;2、通过基于LDA的相似度计算方法,提高了摘要句与主题的相关性;3、平衡了相关性和多样性,对于网络舆情文档等多主题的文档具有非常好的效果。附图说明图1是专利技术的流程框图。图2是实施例中的文本示意图。具体实施方式下面结合附图对本专利技术作进一步说明:如图1所示,基于LDA的网络舆情文档自动摘要方法,包括以下步骤:(1)确定需要抽取的摘要个数n,进入下一步骤;(2)利用训练文档集产生LDA主题模型,训练文档是利用网络爬虫从互联网中爬取的网络文档;进入下一步骤;(3)将文档分成句子存入数组Sens中,进入下一步骤;(4)建立一个空的数组Sums,进入下一步骤;(5)遍历语料集中的每一个句子,计算句子的MMR权重,公式如下所示:MMR(Si)=λ·Sim(Si,Sens-i)-(1-λ)·Sim(Si,Sums)式中的Si表示语料集中第i个句子;λ∈[0,1],是人工设置的参数,可以根据测试文档来选取合适的值;Sens-i即Sens中除去Si;Sim(Sentence,List)是句子Sentence和数组List间的相似度,其计算公式如下:其中p和q是通过步骤(2)中训练好的LDA主题模型,分别将句子Sentence和数组List映射成主题空间的概率分布p=[p1,p2,...,pK]和q=[q1,q2,...,qK],K为训练的LDA主题模型的主题个数;相似度用来解释MMR权重公式;进入下一步骤;(6)遍历完成后,选择Sens中MMR权重最大的句子,加入Sums,并从Sens中剔除;如果Sums中的句子个数等于要抽取的摘要个数n,则进入下一步骤,否则返回步骤(5);(7)输出Sums中的句子,作为本次自动摘要的结果。为了反映文档核心主题和非核心主题在文档中的分布信息和重要程度,我们需要对文档的主题特征进行提取分析处理,本专利技术是通过LDA主题模型对文档进行建模,将文档的整体主题信息分别映射到核心主题和非核心主题上,保留文档的统计特征的同时深度挖掘文档的主题信息,从而更好的抽取反映文档主题的摘要句。在摘要句的抽取过程中,除了确定句子对主题的重要程度外,还需要防止重复或者相似程度较高的句子被抽取作为摘要句,即需要平衡摘要与主题的相关性和其他摘要的相关性,为了解决这个问题,本专利技术采用了MMR来去除摘要的冗余。实施例示例文本如图1所示。为了方便,已经对文档做了分句处理,并且在句子前加上了编号。MMR计算公式中的参数λ设为0.7。我们通过本方法抽取三条摘要。抽取第一条摘要的时候,由于摘要数组为空,计算句子MMR权值只与该句子的剩余部分的相似度有关,结果如下表所示:根据权重结果抽取出编号02的句子并加入摘要数组。继续遍历语料集,利用MMR方法给句子重新赋值,结果如下表所示:根据权重结果,编号06的句子作为第二条摘要,编号06的句子为“防止高考作弊再次升级在做好高考工作方面,防止作弊始终是重要的一项”,可以反映“防止高考作弊再次升级”这一主题,可以看出MMR确实提高了自动摘要的全面性。再根据相同方法,抽取出编号01的句子作为第三条摘要。因此,基于本方法对示例文本的自动摘要抽取前三条摘要句的编号分别为02、06和01。实际上,我们通过对上面的示例文本的分析,可以发现核心主题为“教育部发布通知”,非核心主题包含“四川地区具体规定还未出台”和“防止高考作弊再次升级”。基于Word2Vec的自动摘要方法对相同文档进行摘要抽取,发现有关“防止高考作弊再次升级”主题的摘要权值较低,即抽取的摘要对文档主题的刻画不够全面,而本算法在本例中确实覆盖到了文档的各个主题。以上显示和描述了本专利技术的基本原理、主要特征和优点。本行业的技术人员应该了解,本专利技术不受上述实施例的限制,上述实施例和说明书中描述的只是说明本专利技术的原理,在不脱离本专利技术精神和范围的前提下,本专利技术还会有各种变化和改进,这些变化和改进都落入要求保护的本专利技术范围内。本专利技术要求保护范围由所附的权利要求书及其效物界定。本文档来自技高网...

【技术保护点】
1.基于LDA的网络舆情文档自动摘要方法,其特征在于,包括以下步骤:(1)确定需要抽取的摘要个数n,进入下一步骤;(2)利用训练文档集产生LDA主题模型,进入下一步骤;(3)将文档分成句子存入数组Sens中,进入下一步骤;(4)建立一个空的数组Sums,进入下一步骤;(5)遍历语料集中的每一个句子,计算句子的MMR权重,公式如下所示:MMR(Si)=λ·Sim(Si,Sens‑i)‑(1‑λ)·Sim(Si,Sums)式中的Si表示语料集中第i个句子;λ∈[0,1],是人工设置的参数,可以根据测试文档来选取合适的值;Sens‑i即Sens中除去Si;Sim(Sentence,List)是句子Sentence和数组List间的相似度,其计算公式如下:

【技术特征摘要】
1.基于LDA的网络舆情文档自动摘要方法,其特征在于,包括以下步骤:(1)确定需要抽取的摘要个数n,进入下一步骤;(2)利用训练文档集产生LDA主题模型,进入下一步骤;(3)将文档分成句子存入数组Sens中,进入下一步骤;(4)建立一个空的数组Sums,进入下一步骤;(5)遍历语料集中的每一个句子,计算句子的MMR权重,公式如下所示:MMR(Si)=λ·Sim(Si,Sens-i)-(1-λ)·Sim(Si,Sums)式中的Si表示语料集中第i个句子;λ∈[0,1],是人工设置的参数,可以根据测试文档来选取合适的值;Sens-i即Sens中除去Si;Sim(Sentence,List)是句子Sentence和数组List间的相似度...

【专利技术属性】
技术研发人员:孙健朱煜松陆川张明
申请(专利权)人:成都云数未来信息科学有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1