一种文本主题提取方法、系统和存储介质技术方案

技术编号:21184642 阅读:27 留言:0更新日期:2019-05-22 15:15
本发明专利技术公开了一种文本主题提取方法、系统和存储介质,所述方法包括以下步骤:单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;根据第一主题词集合生成词云或者词表;当添加文本时,将新的本文的主题词集合与第一主题词集合进行并集操作,并更新词云或者词表;当删除文本时,在第一集合中减去被删除文本各主题词的权重,并更新词云或者词表。本发明专利技术相对于现有技术大大减少了运算量,缩短了词云或者词表的更新时间,提升了更新的实时性。本发明专利技术可以广泛应用于数据处理技术。

A Text Topic Extraction Method, System and Storage Media

The invention discloses a text subject extraction method, system and storage medium. The method comprises the following steps: extracting the subject headings of each text in the current text set separately; the subject headings set includes several subject headings and the corresponding weight values of each subject heading; and unifying the subject headings of all texts in the current text set to obtain the first one. Thesaurus set; generate thesaurus or thesaurus according to the first thesaurus set; when adding text, merge the new thesaurus set of this article with the first thesaurus set, and update the thesaurus or thesaurus; when deleting text, subtract the weight of each Thesaurus of the deleted text in the first set, and update the thesaurus or thesaurus. Compared with the prior art, the present invention greatly reduces the calculation amount, shortens the update time of the word cloud or the word list, and improves the real-time updating. The invention can be widely used in data processing technology.

【技术实现步骤摘要】
一种文本主题提取方法、系统和存储介质
本专利技术涉及数据处理技术,尤其是一种文本主题提取方法、系统和存储介质。
技术介绍
常规文本内容的主题词提取在自然语言处理的领域中已经具有非常成熟的解决方案,对于固定数量的文本集合,当前的数据处理技术可以提取出该文本集合的主题词。但是当文本集合的范围发生变化时,却需要经过重新训练计算,才能获取变化后的主题词。在一些资讯应用中,后台服务器通过数据采集程序,不断地从互联网上采集不同类别的资讯,并对不同类别的资讯进行分类,然后分别对每个类别的资讯内容抽取主题词,形成每个类别的词云,但是一旦选定的类别的文本集合中有新的资讯被加入或者有旧的资讯被剔除时,该类别的词云需要根据最新的文本集合进行更新。如果采用现有技术来实现该功能,那么需要将该类别的文本集合中的所有资讯一起进行训练,抽取新的主题词,再形成新的词云。那么意味着每当有新的资讯被加入或者有旧的资讯被剔除时都需要对历史的资讯进行计算,对计算资源造成了浪费,同时由于计算量庞大,不能做到实时更新。
技术实现思路
为解决上述技术问题,本专利技术的目的在于:提供一种能够节省计算资源并且能够实时更新的文本主题提取方法、系统和存储介质。本专利技术所采取的第一种技术方案是:一种文本主题提取方法,包括以下步骤:单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;根据第一主题词集合生成词云或者词表;当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。进一步,在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。进一步,所述单独提取当前文本集合中每个文本的主题词集合,其具体为:对当前文本集合中的每个文本进行以下处理:提取文本的主题词以及主题词在该文本中的权重值;将权重值大于设定阈值的所有主题词组成该文本的主题词集合。进一步,所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。本专利技术所采取的第二种技术方案是:一种文本主题提取系统,包括:提取模块,用于单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;合并操作模块,用于将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;生成模块,用于根据第一主题词集合生成词云或者词表;更新模块,用于当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;以及用于当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。进一步,在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。进一步,所述单独提取当前文本集合中每个文本的主题词集合,其具体为:对当前文本集合中的每个文本进行以下处理:提取文本的主题词以及主题词在该文本中的权重值;将权重值大于设定阈值的所有主题词组成该文本的主题词集合。进一步,所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。本专利技术所采取的第三种技术方案是:一种文本主题提取系统,包括:存储器,用于存储程序;处理器,用于加载所述程序以执行一种文本主题提取方法。本专利技术所采取的第四种技术方案是:一种存储介质,其存储有程序,所述程序被处理器执行时,实现一种文本主题提取方法。本专利技术的有益效果是:本专利技术在添加和删除文本集合中的文本时,只需要进行少量文本的主题词集合提取和简单的权重值加减,即可得到新的文本集合的主题词集合,相对于现有技术大大减少了运算量,缩短了词云或者词表的更新时间,提升了更新的实时性。附图说明图1为本专利技术一种具体实施例的文本主题提取方法的流程图。具体实施方式下面结合说明书附图和具体的实施例对本专利技术进行进一步的说明。参照图1,本实施例公开了一种文本主题提取方法,该方法包括以下步骤:S1、单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;其中,文本指存储文字的数字文档,如doc、txt或者XML等格式的文档。S2、将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;例如,当前文本集合包括第一文本和第二文本,其中,第一文本的主题词集合为:{“教育”,权重0.5;“交通”,权重0.25;医疗,权重0.2},第二文本的主题词集合为:{“教育”,权重0.4;“师资”,权重0.3;“学生”,权重0.1}。我们将第一文本的主题词集合和第二文本的主题词集合进行并集操作得到的新的主题词集合应该为:{“教育”,权重0.9;“师资”,权重0.3;“交通”,权重0.25;“医疗”,权重0.2;“学生”,权重0.1}。其中,“教育”一词在新的主题词集合中被合并为一个,同时,“教育”一词的权重值为其在第一文本的主题词集合和第二文本的主题词集合的权重值之和。S3、根据第一主题词集合生成词云或者词表;系统可以根据第一主题词集合,生成一个词云或者词表,以便于用户从词云或者词表中选择自己喜欢的内容进行浏览。例如,在一些应用场景中,用户当前还有100条资讯没有阅读,系统根据这100条资讯进行主题词集合的提取,并利用提取得到的主题词集合生成一个词云或者词表,当用户选择词云或者词表中的一个词语时,系统将包含该主题词的文章返回给用户。用户便可以选择自己想看的内容,当然词云或者词表也可以反映这些文章的主要内容,用户如果对这些内容不感兴趣,可以选择忽略没有阅读的资讯。S4、当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;S5、当有原有的文本从当前的文本集合被删除时,本文档来自技高网...

【技术保护点】
1.一种文本主题提取方法,其特征在于:包括以下步骤:单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;根据第一主题词集合生成词云或者词表;当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。

【技术特征摘要】
1.一种文本主题提取方法,其特征在于:包括以下步骤:单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;根据第一主题词集合生成词云或者词表;当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。2.根据权利要求1所述的一种文本主题提取方法,其特征在于:在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。3.根据权利要求1所述的一种文本主题提取方法,其特征在于:所述单独提取当前文本集合中每个文本的主题词集合,其具体为:对当前文本集合中的每个文本进行以下处理:提取文本的主题词以及主题词在该文本中的权重值;将权重值大于设定阈值的所有主题词组成该文本的主题词集合。4.根据权利要求3所述的一种文本主题提取方法,其特征在于:所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。5.一种文本主题提取系统,其特征在于:包括:提取模块,用于单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对...

【专利技术属性】
技术研发人员:赵淦森林成创列海权纪求华赵淑娴陈冰川李振宇邓水凤朱俊杰冯梦珂颜志鸿孙元基欧小梅刘秋敏黄伟雄
申请(专利权)人:广东蔚海数问大数据科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1