The invention discloses an automatic summarization method of network public opinion documents based on LDA, including steps: determining the number of abstracts to be extracted n; generating LDA topic model by using training document set; dividing documents into sentences and storing them in array Sens; establishing an empty array Sums; traversing every sentence in corpus set and calculating MMR of sentences. Weight, similarity between sentences and arrays, similarity is used to explain the MMR weight formula; after traversal, select the sentences with the largest MMR weight in Sens, add Sums and remove them from Sens; if the number of sentences in Sums equals the number of abstracts to be extracted n, enter the next step, or return to the previous step; As a result of this automatic summary. By calculating the similarity based on LDA, the method improves the correlation between abstract sentences and topics, balances the correlation and diversity, and has a very good effect on multi-topic documents such as network public opinion documents.
【技术实现步骤摘要】
基于LDA的网络舆情文档自动摘要方法
本专利技术属于机器学习和自动摘要
,具体涉及基于LDA的网络舆情文档自动摘要方法。
技术介绍
自动摘要是指从文档中抽取能准确全面地反映文档中心内容的简洁连贯的句子或短文。对于网络舆情文档而言,其文档内容表达的主题信息通常并不单一,可能围绕一个核心主题,并向外发散了若干个非核心主题,或者说子主题,是一个“1+N”的模式。传统的自动摘要方法只计算文档的句子的重要性,没有反映文档核心主题和非核心主题在文档中的分布信息和重要程度,更没有对文档的主题特征进行提取分析处理,并且在摘要句的抽取过程中,不能消除重复或者相似程度较高的句子对摘要的影响,因此很难处理网络舆情文档。传统自动摘要方法对网络舆情文档处理的不足,其主要是未能平衡相关性和多样性;相关性是指与原文档主题的相关程度,相关性越大就越能反映文档的主题信息。而多样性则是评价摘要与原文档的多个主题的覆盖程度,多样性越大就越能全面覆盖到文档的各个主题,防止摘要过度集中在核心主题,而忽视了非核心主题在文档中的作用。为了解决以上问题我方研发出了一种基于LDA的网络舆情文档自动摘要方法。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于LDA的网络舆情文档自动摘要方法,利用LDA反映句子之间的主题相似度,并通过MMR去除摘要句子的冗余。本专利技术通过以下技术方案来实现上述目的:基于LDA的网络舆情文档自动摘要方法,包括以下步骤:(1)确定需要抽取的摘要个数n,进入下一步骤;(2)利用训练文档集产生LDA主题模型,进入下一步骤;(3)将文档分成句子存入数组Sens中, ...
【技术保护点】
1.基于LDA的网络舆情文档自动摘要方法,其特征在于,包括以下步骤:(1)确定需要抽取的摘要个数n,进入下一步骤;(2)利用训练文档集产生LDA主题模型,进入下一步骤;(3)将文档分成句子存入数组Sens中,进入下一步骤;(4)建立一个空的数组Sums,进入下一步骤;(5)遍历语料集中的每一个句子,计算句子的MMR权重,公式如下所示:MMR(Si)=λ·Sim(Si,Sens‑i)‑(1‑λ)·Sim(Si,Sums)式中的Si表示语料集中第i个句子;λ∈[0,1],是人工设置的参数,可以根据测试文档来选取合适的值;Sens‑i即Sens中除去Si;Sim(Sentence,List)是句子Sentence和数组List间的相似度,其计算公式如下:
【技术特征摘要】
1.基于LDA的网络舆情文档自动摘要方法,其特征在于,包括以下步骤:(1)确定需要抽取的摘要个数n,进入下一步骤;(2)利用训练文档集产生LDA主题模型,进入下一步骤;(3)将文档分成句子存入数组Sens中,进入下一步骤;(4)建立一个空的数组Sums,进入下一步骤;(5)遍历语料集中的每一个句子,计算句子的MMR权重,公式如下所示:MMR(Si)=λ·Sim(Si,Sens-i)-(1-λ)·Sim(Si,Sums)式中的Si表示语料集中第i个句子;λ∈[0,1],是人工设置的参数,可以根据测试文档来选取合适的值;Sens-i即Sens中除去Si;Sim(Sentence,List)是句子Sentence和数组List间的相似度...
【专利技术属性】
技术研发人员:孙健,朱煜松,陆川,张明,
申请(专利权)人:成都云数未来信息科学有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。