主题分类的方法、装置和计算机设备制造方法及图纸

技术编号:26599511 阅读:23 留言:0更新日期:2020-12-04 21:22
本申请涉及大数据技术,揭示了主题分类的方法,包括:获取信息库中各文章分别对应的词袋模型,词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,词袋模型中包括主题词和各主题词分别对应的出现频率;将各文章分别对应的词袋模型,一一对应作为各文章的主题,并将各词袋模型输入至LDA主题模型;判断LDA主题模型根据预设主题数量,对各文章的主题进行主题分类的迭代训练过程是否收敛;若是,则获取LDA主题模型训练收敛时,输出的各文章分别对应的主题分类的分类信息。通过去停用词和词性筛选后分别形成各文章分别对应的词袋模型,作为LDA主题模型的特征输入,避免了高频出现的无内容价值的词语的干扰,消除主题分类过程的噪音影响。

【技术实现步骤摘要】
主题分类的方法、装置和计算机设备
本申请涉及大数据领域,特别是涉及到主题分类的方法、装置和计算机设备。
技术介绍
现有各新闻媒体推送的热点新闻,信息数据量大且信息类型杂乱,新闻标题的命名更为了赋予吸引力而怪相重生,若要从纵多的新闻信息量中进行主题归类,需要获取到能代表新闻信息主要表达内容的主题,才能精准分类。常规的LDA的主题模型,可通过大量的文本训练,得到每篇文章的主题分布以及每个主题的词分布,然后通过将同一主题的文章聚合在一起,同时根据该主题的词分布再归纳出这一类型的文章的主题。但通过训练得到的文章的主题分布和词分布,噪声比较大,而且新闻信息中常会出现新兴词汇等,严重影响新闻信息主题分类的精准度。
技术实现思路
本申请的主要目的为提供数据处理方法,旨在解决现有数据扩充方式不能解决数据多样性的技术问题。本申请提出一种主题分类的方法,包括:获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;将各所述文章分别对应的所述词袋模型,一一对应作为各所述文章的主题,并将各所述词袋模型输入至LDA主题模型;判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛;若是,则获取所述LDA主题模型训练收敛时,输出的各所述文章分别对应的主题分类的分类信息。优选地,所述获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合的步骤,包括:通过Jieba分词工具对指定文章进行分词,并对各所述分词进行词性标注,其中,所述指定文章为所述信息库中所有文章中的任意一篇;统计各所述分词在所述指定文章中分别出现的频次,并按照由高到低的分词频次形成分词排序;删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序;将所述核心词排序,作为所述指定文章的词袋模型;根据所述指定文章的词袋模型的获取过程,分别获取所述信息库中各文章分别对应的词袋模型。优选地,所述预设停用词词库包括词性过滤条件对应的第一分词表,以及用户预构造停用词对应的第二分词表,所述删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序的步骤,包括:判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词;若是,则从所述分词排序中剔除所述指定词性对应的分词,形成预留词排序;判断所述预留词排序中,是否存在所述第二分词表中对应的分词;若是,则从所述预留词排序中,剔除所述第二分词表中对应的分词,形成所述核心词排序。优选地,所述判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前,包括:获取所述预留词排序中名词词性对应的各名词分词;计算指定名词分别与所述预留词排序中除所述指定名词之外的剩余名词分词之间的关联度,其中,所述指定名词为所述预留词排序中名词词性对应的所有名词分词中的任意一个;将所述关联度低于预设阈值的指定名词,发送至人工处理终端;将所述人工处理终端反馈为无关词的指定名词,存储于所述第二分词表。优选地,所述判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前,包括:判断所述指定文章经Jieba分词工具分词后,是否存在Jieba分词词表之外的异类词;若是,则将所述异类词发送至人工处理终端;将所述人工处理终端反馈的异类词的分词信息,添加至所述Jieba分词词表中,其中,所述分词信息包括所述异类词的分词隔断位置,以及所述异类词对应的分词词性。优选地,所述判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛的步骤之前,包括:根据获取所述预设主题数量的变化范围内,各主题数量下分别训练所述LDA主题模型对应的模型粘合度,其中,C为粘合度,ε为非零常数,PMI(ωi,ωj)表示主题词ωi与主题词ωj的共现率,P(ωi)代表主题词ωi在当前主题中出现的概率,N代表所述当前主题中的所有分词的数量;将各所述主题数量下分别训练所述LDA主题模型对应的模型粘合度,拟合为模型粘合度曲线;确定所述模型粘合度曲线的拐点;将所述拐点对应的主题数量,作为所述预设主题数量。本申请还提供了一种主题分类的装置,包括:第一获取模块,用于获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;输入模块,用于将各所述文章分别对应的所述词袋模型,一一对应作为各所述文章的主题,并将各所述词袋模型输入至LDA主题模型;判断模块,用于判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛;第二获取模块,用于若收敛,则获取所述LDA主题模型训练收敛时,输出的各所述文章分别对应的主题分类的分类信息。优选地,第一获取模块,包括:分词单元,用于通过Jieba分词工具对指定文章进行分词,并对各所述分词进行词性标注,其中,所述指定文章为所述信息库中所有文章中的任意一篇;统计单元,用于统计各所述分词在所述指定文章中分别出现的频次,并按照由高到低的分词频次形成分词排序;删除单元,用于删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序;作为单元,用于将所述核心词排序,作为所述指定文章的词袋模型;获取单元,用于根据所述指定文章的词袋模型的获取过程,分别获取所述信息库中各文章分别对应的词袋模型。本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。本申请通过去停用词和词性筛选后分别形成各文章分别对应的词袋模型,作为LDA主题模型的特征输入,避免了高频出现的无内容价值的词语的干扰,消除主题分类过程的噪音影响。附图说明图1本申请一实施例的主题分类的方法流程示意图;图2本申请一实施例的主题分类的装置结构示意图;图3本申请一实施例的计算机设备内部结构示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。参照图1,本申请一实施例的主题分类的方法,包括:S1:获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;S2:将各所述本文档来自技高网...

【技术保护点】
1.一种主题分类的方法,其特征在于,包括:/n获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;/n将各所述文章分别对应的所述词袋模型,一一对应作为各所述文章的主题,并将各所述词袋模型输入至LDA主题模型;/n判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛;/n若是,则获取所述LDA主题模型训练收敛时,输出的各所述文章分别对应的主题分类的分类信息。/n

【技术特征摘要】
1.一种主题分类的方法,其特征在于,包括:
获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合,其中,所述词袋模型中包括主题词和各所述主题词分别对应的出现频率;
将各所述文章分别对应的所述词袋模型,一一对应作为各所述文章的主题,并将各所述词袋模型输入至LDA主题模型;
判断所述LDA主题模型根据预设主题数量,对各所述文章的主题进行主题分类的迭代训练过程是否收敛;
若是,则获取所述LDA主题模型训练收敛时,输出的各所述文章分别对应的主题分类的分类信息。


2.根据权利要求1所述的主题分类的方法,其特征在于,所述获取信息库中各文章分别对应的词袋模型,所述词袋模型为通过停用词和词性筛选后形成的主题词组合的步骤,包括:
通过Jieba分词工具对指定文章进行分词,并对各所述分词进行词性标注,其中,所述指定文章为所述信息库中所有文章中的任意一篇;
统计各所述分词在所述指定文章中分别出现的频次,并按照由高到低的分词频次形成分词排序;
删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序;
将所述核心词排序,作为所述指定文章的词袋模型;
根据所述指定文章的词袋模型的获取过程,分别获取所述信息库中各文章分别对应的词袋模型。


3.根据权利要求2所述的主题分类的方法,其特征在于,所述预设停用词词库包括词性过滤条件对应的第一分词表,以及用户预构造停用词对应的第二分词表,所述删除所述分词排序中存在于预设停用词词库中的指定分词,形成核心词排序的步骤,包括:
判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词;
若是,则从所述分词排序中剔除所述指定词性对应的分词,形成预留词排序;
判断所述预留词排序中,是否存在所述第二分词表中对应的分词;
若是,则从所述预留词排序中,剔除所述第二分词表中对应的分词,形成所述核心词排序。


4.根据权利要求3所述的主题分类的方法,其特征在于,所述判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前,包括:
获取所述预留词排序中名词词性对应的各名词分词;
计算指定名词分别与所述预留词排序中除所述指定名词之外的剩余名词分词之间的关联度,其中,所述指定名词为所述预留词排序中名词词性对应的所有名词分词中的任意一个;
将所述关联度低于预设阈值的指定名词,发送至人工处理终端;
将所述人工处理终端反馈为无关词的指定名词,存储于所述第二分词表。


5.根据权利要求3所述的主题分类的方法,其特征在于,所述判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前,包括:
判断所述指定文章经Jieba分词工具分词后,是否存在Jieba...

【专利技术属性】
技术研发人员:蒋宏达徐国强
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1