The invention discloses a text subject extraction method, system and storage medium. The method comprises the following steps: extracting the subject headings of each text in the current text set separately; the subject headings set includes several subject headings and the corresponding weight values of each subject heading; and unifying the subject headings of all texts in the current text set to obtain the first one. Thesaurus set; generate thesaurus or thesaurus according to the first thesaurus set; when adding text, merge the new thesaurus set of this article with the first thesaurus set, and update the thesaurus or thesaurus; when deleting text, subtract the weight of each Thesaurus of the deleted text in the first set, and update the thesaurus or thesaurus. Compared with the prior art, the present invention greatly reduces the calculation amount, shortens the update time of the word cloud or the word list, and improves the real-time updating. The invention can be widely used in data processing technology.
【技术实现步骤摘要】
一种文本主题提取方法、系统和存储介质
本专利技术涉及数据处理技术,尤其是一种文本主题提取方法、系统和存储介质。
技术介绍
常规文本内容的主题词提取在自然语言处理的领域中已经具有非常成熟的解决方案,对于固定数量的文本集合,当前的数据处理技术可以提取出该文本集合的主题词。但是当文本集合的范围发生变化时,却需要经过重新训练计算,才能获取变化后的主题词。在一些资讯应用中,后台服务器通过数据采集程序,不断地从互联网上采集不同类别的资讯,并对不同类别的资讯进行分类,然后分别对每个类别的资讯内容抽取主题词,形成每个类别的词云,但是一旦选定的类别的文本集合中有新的资讯被加入或者有旧的资讯被剔除时,该类别的词云需要根据最新的文本集合进行更新。如果采用现有技术来实现该功能,那么需要将该类别的文本集合中的所有资讯一起进行训练,抽取新的主题词,再形成新的词云。那么意味着每当有新的资讯被加入或者有旧的资讯被剔除时都需要对历史的资讯进行计算,对计算资源造成了浪费,同时由于计算量庞大,不能做到实时更新。
技术实现思路
为解决上述技术问题,本专利技术的目的在于:提供一种能够节省计算资源并且能够实时更新的文本主题提取方法、系统和存储介质。本专利技术所采取的第一种技术方案是:一种文本主题提取方法,包括以下步骤:单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权 ...
【技术保护点】
1.一种文本主题提取方法,其特征在于:包括以下步骤:单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;根据第一主题词集合生成词云或者词表;当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。
【技术特征摘要】
1.一种文本主题提取方法,其特征在于:包括以下步骤:单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对应的权重值;将当前文本集合中所有文本的主题词集合进行并集操作,得到第一主题词集合;其中,并集操作为:将多个主题词集合中相同的主题词合并为新的主题词集合中的一个主题词,并将该主题词在各个主题词集合中的权重值之和作为该主题词在新的主题词集合中的权重值;根据第一主题词集合生成词云或者词表;当有新的文本被添加到当前的文本集合时,提取新的文本的主题词集合,将第一主题词集合与新的文本的主题词集合进行并集操作,得到第二主题词集合;并根据第二主题词集合更新词云或者词表;当有原有的文本从当前的文本集合被删除时,将第一主题词集合与本删除的文本的主题词集合中相同的主题词的权重值相减,然后将权重值等于0的主题词删除,得到第三主题词集合,并根据第三主题词集合更新词云或者词表。2.根据权利要求1所述的一种文本主题提取方法,其特征在于:在所述词云中权重值越大的主题词所显示的字体越大;在所述词表中权重值越大的主题词排名越前。3.根据权利要求1所述的一种文本主题提取方法,其特征在于:所述单独提取当前文本集合中每个文本的主题词集合,其具体为:对当前文本集合中的每个文本进行以下处理:提取文本的主题词以及主题词在该文本中的权重值;将权重值大于设定阈值的所有主题词组成该文本的主题词集合。4.根据权利要求3所述的一种文本主题提取方法,其特征在于:所述提取文本的主题词以及主题词在该文本中的权重值,其具体为:采用LDA模型或者TF-IDF模型提取文本的主题词以及主题词在该文本中的权重值。5.一种文本主题提取系统,其特征在于:包括:提取模块,用于单独提取当前文本集合中每个文本的主题词集合;所述主题词集合包括若干个主题词和每个主题词所对...
【专利技术属性】
技术研发人员:赵淦森,林成创,列海权,纪求华,赵淑娴,陈冰川,李振宇,邓水凤,朱俊杰,冯梦珂,颜志鸿,孙元基,欧小梅,刘秋敏,黄伟雄,
申请(专利权)人:广东蔚海数问大数据科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。