主题分类的方法、装置和计算机设备制造方法及图纸

技术编号：26599511 阅读：23 留言：0更新日期：2020-12-04 21:22

本申请涉及大数据技术，揭示了主题分类的方法，包括：获取信息库中各文章分别对应的词袋模型，词袋模型为通过停用词和词性筛选后形成的主题词组合，其中，词袋模型中包括主题词和各主题词分别对应的出现频率；将各文章分别对应的词袋模型，一一对应作为各文章的主题，并将各词袋模型输入至LDA主题模型；判断LDA主题模型根据预设主题数量，对各文章的主题进行主题分类的迭代训练过程是否收敛；若是，则获取LDA主题模型训练收敛时，输出的各文章分别对应的主题分类的分类信息。通过去停用词和词性筛选后分别形成各文章分别对应的词袋模型，作为LDA主题模型的特征输入，避免了高频出现的无内容价值的词语的干扰，消除主题分类过程的噪音影响。

全部详细技术资料下载

【技术实现步骤摘要】
主题分类的方法、装置和计算机设备
本申请涉及大数据领域，特别是涉及到主题分类的方法、装置和计算机设备。
技术介绍
现有各新闻媒体推送的热点新闻，信息数据量大且信息类型杂乱，新闻标题的命名更为了赋予吸引力而怪相重生，若要从纵多的新闻信息量中进行主题归类，需要获取到能代表新闻信息主要表达内容的主题，才能精准分类。常规的LDA的主题模型，可通过大量的文本训练，得到每篇文章的主题分布以及每个主题的词分布，然后通过将同一主题的文章聚合在一起，同时根据该主题的词分布再归纳出这一类型的文章的主题。但通过训练得到的文章的主题分布和词分布，噪声比较大，而且新闻信息中常会出现新兴词汇等，严重影响新闻信息主题分类的精准度。
技术实现思路
本申请的主要目的为提供数据处理方法，旨在解决现有数据扩充方式不能解决数据多样性的技术问题。本申请提出一种主题分类的方法，包括：获取信息库中各文章分别对应的词袋模型，所述词袋模型为通过停用词和词性筛选后形成的主题词组合，其中，所述词袋模型中包括主题词和各所述主题词分别对应的出现频率；将各所述文章分别对应的所述词袋模型，一一对应作为各所述文章的主题，并将各所述词袋模型输入至LDA主题模型；判断所述LDA主题模型根据预设主题数量，对各所述文章的主题进行主题分类的迭代训练过程是否收敛；若是，则获取所述LDA主题模型训练收敛时，输出的各所述文章分别对应的主题分类的分类信息。优选地，所述获取信息库中各文章分别对应的词袋模型，所述词袋模型为通过停用词和...

【技术保护点】
1.一种主题分类的方法，其特征在于，包括：/n获取信息库中各文章分别对应的词袋模型，所述词袋模型为通过停用词和词性筛选后形成的主题词组合，其中，所述词袋模型中包括主题词和各所述主题词分别对应的出现频率；/n将各所述文章分别对应的所述词袋模型，一一对应作为各所述文章的主题，并将各所述词袋模型输入至LDA主题模型；/n判断所述LDA主题模型根据预设主题数量，对各所述文章的主题进行主题分类的迭代训练过程是否收敛；/n若是，则获取所述LDA主题模型训练收敛时，输出的各所述文章分别对应的主题分类的分类信息。/n

【技术特征摘要】
1.一种主题分类的方法，其特征在于，包括：
获取信息库中各文章分别对应的词袋模型，所述词袋模型为通过停用词和词性筛选后形成的主题词组合，其中，所述词袋模型中包括主题词和各所述主题词分别对应的出现频率；
将各所述文章分别对应的所述词袋模型，一一对应作为各所述文章的主题，并将各所述词袋模型输入至LDA主题模型；
判断所述LDA主题模型根据预设主题数量，对各所述文章的主题进行主题分类的迭代训练过程是否收敛；
若是，则获取所述LDA主题模型训练收敛时，输出的各所述文章分别对应的主题分类的分类信息。

2.根据权利要求1所述的主题分类的方法，其特征在于，所述获取信息库中各文章分别对应的词袋模型，所述词袋模型为通过停用词和词性筛选后形成的主题词组合的步骤，包括：
通过Jieba分词工具对指定文章进行分词，并对各所述分词进行词性标注，其中，所述指定文章为所述信息库中所有文章中的任意一篇；
统计各所述分词在所述指定文章中分别出现的频次，并按照由高到低的分词频次形成分词排序；
删除所述分词排序中存在于预设停用词词库中的指定分词，形成核心词排序；
将所述核心词排序，作为所述指定文章的词袋模型；
根据所述指定文章的词袋模型的获取过程，分别获取所述信息库中各文章分别对应的词袋模型。

3.根据权利要求2所述的主题分类的方法，其特征在于，所述预设停用词词库包括词性过滤条件对应的第一分词表，以及用户预构造停用词对应的第二分词表，所述删除所述分词排序中存在于预设停用词词库中的指定分词，形成核心词排序的步骤，包括：
判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词；
若是，则从所述分词排序中剔除所述指定词性对应的分词，形成预留词排序；
判断所述预留词排序中，是否存在所述第二分词表中对应的分词；
若是，则从所述预留词排序中，剔除所述第二分词表中对应的分词，形成所述核心词排序。

4.根据权利要求3所述的主题分类的方法，其特征在于，所述判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前，包括：
获取所述预留词排序中名词词性对应的各名词分词；
计算指定名词分别与所述预留词排序中除所述指定名词之外的剩余名词分词之间的关联度，其中，所述指定名词为所述预留词排序中名词词性对应的所有名词分词中的任意一个；
将所述关联度低于预设阈值的指定名词，发送至人工处理终端；
将所述人工处理终端反馈为无关词的指定名词，存储于所述第二分词表。

5.根据权利要求3所述的主题分类的方法，其特征在于，所述判断所述分词排序中是否存在所述第一分词表中指定词性对应的分词的步骤之前，包括：
判断所述指定文章经Jieba分词工具分词后，是否存在Jieba...

【专利技术属性】
技术研发人员：蒋宏达，徐国强，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人