当前位置: 首页 > 专利查询>中国人民解放军军事科学院军事科学信息研究中心专利>正文

一种基于改进hLDA模型的层次化主题生成方法及系统技术方案

技术编号：40677238 阅读：2 留言：0更新日期：2024-03-18 19:15

本发明专利技术提出一种基于改进hLDA模型的层次化主题生成方法及系统，属于自然语言处理技术领域。本发明专利技术引入层次控制因子对文档选择主题路径的过程进行约束，解决从大量文档中提取其主题对海量信息的利用与服务问题、以及现有方法层次内容不够丰富、子主题过于集中的问题。改进后的模型结果中各主题的子主题分布更为均衡，避免子主题过于集中的现象，层次化主题生成效果更好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理，尤其涉及一种基于改进hlda模型的层次化主题生成方法及系统。

技术介绍

1、当前社会进入信息化时代。一方面，海量数据蕴含着巨大的价值，另一方面，如何进行数据挖掘和分析以发挥数据价值，已成为人们面临的难题。依靠个体从过载的巨量数据中提取信息主题和重点十分困难，且效率较低。因此，从大量文档中提取其主题对海量信息的利用与服务非常重要，具有较高的应用价值。

2、对于上述问题，目前常见的方法是应用分层潜在狄利克雷分配模型(hlda)，即hlda层次主题模型。hlda是一种无监督机器学习方法，可以从大规模文本数据中寻找与挖掘隐藏的有价值的潜在主题信息，并发现主题之间的层次语义和结构关系。对于有m个文档的文档集合，hlda模型首先以η为超参数初始化一个单词的多项式先验分布β，以α为参数形成某个文档上的主题分布θ；然后，对于一个有n个单词的文本，模型通过参数为γ的ncrp过程逐层生成不限定数量的l级路径集合t；接着，根据主题路径t文档的主题先验分布θ生成文档的主题分布z，根据分布z和β生成文本中的单词w，最后使用gibbs采样进行迭代，从而得到最终结果。

3、当前方法存在的问题是，hlda作为层次主题发现模型，结果往往会出现层次内容不够丰富、子主题过于集中的现象，层次化效果不佳。该模型在ncrp过程中，当已有文档的主题路径中某个主题频数较大时，新的文档在生成主题路径时也将更倾向于选择该主题，整个过程并没有对子主题数的控制。

技术实现思路

1、本专

2、本专利技术第一方面提出一种基于改进hlda模型的层次化主题生成方法。所述方法包括：步骤s1、根据用户需求获取对应的文本数据，利用所述文本数据构建原始语料库，并对所述原始语料库中的文本数据进行预处理，得到规范化的文本数据；步骤s2、利用nltk工具基于所述规范化的文本数据生成文本输入文件，所述文本输入文件被输入至改进的hlda层次主题模型进行主题抽取，以获得层次化主题抽取结果。

3、根据本专利技术第一方面的方法，在所述步骤s1中：以爬虫爬取的方式采集所述文本数据，所述文本数据以.txt的方式进行保存，从而构建所述原始语料库；对所述文本数据进行数据清洗和数据标准化操作，以剔除所述文本数据中的异常数据同时填充所述文本数据中的缺省数据，并进行格式统一化处理，从而完成所述预处理。

4、根据本专利技术第一方面的方法，在所述步骤s2中，所述nltk工具为基于python的自然语言处理工具，利用所述nltk工具基于所述规范化的文本数据生成所述文本输入文件，具体包括：利用所述nltk工具对所述规范化的文本数据进行分句处理和分词处理，并去除其中的标点和数字，提取出其中的词干，对词形进行还原，基于停用词表提出其中的停用词，从而形成所述文本输入文件，所述文本输入文件仅包含若干单词。

5、根据本专利技术第一方面的方法，在所述步骤s2中，所述文本输入文件被输入至所述改进的hlda层次主题模型进行主题抽取，具体包括：

6、为所述改进的hlda层次主题模型引入层次控制因子δ：

7、

8、其中，所述文本输入文件中包含若干文档，mi表示除文档m外的所有其他文档的主题路径中包含主题i的频数，m表示除文档m外的所有其他文档的主题路径中包含主题cmk的频数，主题i为主题cmk的子主题，m＝∑imi；

9、利用困惑度确定所述改进的hlda层次主题模型的参数，所述困惑度的计算方式为：

10、

11、其中，m表示文档的总数，ωd表示文档d中的单词所组成的词袋向量，nd表示文档d中的单词总数，p(ωd)表示所述改进的hlda层次主题模预测的文档d的生成概率，p(ωd)＝p(z|d)p(ω|z)，p(z|d)表示文档d中每个主题出现的概率，p(ω|z)表示词典中的单词在某一主题下出现的概率；

12、基于所述困惑度依次对主题树深度、dirichlet分布超参数、ncrp树结构先验参数、迭代次数进行设置，利用设置完参数的改进的hlda层次主题模型对所述文本输入文件进行主题抽取。

13、本专利技术第二方面提出一种基于改进hlda模型的层次化主题生成系统。所述系统包括：第一处理单元，被配置为：根据用户需求获取对应的文本数据，利用所述文本数据构建原始语料库，并对所述原始语料库中的文本数据进行预处理，得到规范化的文本数据；第二处理单元，被配置为：利用nltk工具基于所述规范化的文本数据生成文本输入文件，所述文本输入文件被输入至改进的hlda层次主题模型进行主题抽取，以获得层次化主题抽取结果。

14、根据本专利技术第二方面的系统，所述第一处理单元具体被配置为：以爬虫爬取的方式采集所述文本数据，所述文本数据以.txt的方式进行保存，从而构建所述原始语料库；对所述文本数据进行数据清洗和数据标准化操作，以剔除所述文本数据中的异常数据同时填充所述文本数据中的缺省数据，并进行格式统一化处理，从而完成所述预处理。

15、根据本专利技术第二方面的系统，所述nltk工具为基于python的自然语言处理工具，所述第二处理单元具体被配置为：利用所述nltk工具基于所述规范化的文本数据生成所述文本输入文件，具体包括：利用所述nltk工具对所述规范化的文本数据进行分句处理和分词处理，并去除其中的标点和数字，提取出其中的词干，对词形进行还原，基于停用词表提出其中的停用词，从而形成所述文本输入文件，所述文本输入文件仅包含若干单词。

16、根据本专利技术第二方面的系统，所述第二处理单元具体被配置为：所述文本输入文件被输入至所述改进的hlda层次主题模型进行主题抽取，具体包括：

17、为所述改进的hlda层次主题模型引入层次控制因子δ：

18、

19、其中，所述文本输入文件中包含若干文档，mi表示除文档m外的所有其他文档的主题路径中包含主题i的频数，m表示除文档m外的所有其他文档的主题路径中包含主题cmk的频数，主题i为主题cmk的子主题，m＝∑imi；

20、利用困惑度确定所述改进的hlda层次主题模型的参数，所述困惑度的计算方式为：

21、

22、其中，m表示文档的总数，ωd表示文档d中的单词所组成的词袋向量，nd表示文档d中的单词总数，p(ωd)表示所述改进的hlda层次主题模预测的文档d的生成概率，p(ωd)＝p(z|d)p(ω|z)，p(z|d)表示文档d中每个主题出现的概率，p(ω|z)表示词典中的单词在某一主题下出现的概率；

23、基于所述困惑度依次对主题树深度、dirichlet分布超参数、ncrp树结构先验参数、迭代次数进行设置，利用设置完参数的改进的hlda层次主题模型对所述文本输入文件进行主题抽取。

24、本专利技术第三方面公开了一种电子设备。本文档来自技高网...

【技术保护点】

1.一种基于改进hLDA模型的层次化主题生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于改进hLDA模型的层次化主题生成方法，其特征在于，在所述步骤S1中：

3.根据权利要求1所述的一种基于改进hLDA模型的层次化主题生成方法，其特征在于，在所述步骤S2中，所述NLTK工具为基于Python的自然语言处理工具，利用所述NLTK工具基于所述规范化的文本数据生成所述文本输入文件，具体包括：利用所述NLTK工具对所述规范化的文本数据进行分句处理和分词处理，并去除其中的标点和数字，提取出其中的词干，对词形进行还原，基于停用词表提出其中的停用词，从而形成所述文本输入文件，所述文本输入文件仅包含若干单词。

4.根据权利要求3所述的一种基于改进hLDA模型的层次化主题生成方法，其特征在于，在所述步骤S2中，所述文本输入文件被输入至所述改进的hLDA层次主题模型进行主题抽取，具体包括：

5.一种基于改进hLDA模型的层次化主题生成系统，其特征在于，所述系统包括：

6.根据权利要求5所述的一种基于改进hLDA模型的层

7.根据权利要求6所述的一种基于改进hLDA模型的层次化主题生成方法系统，其特征在于，所述NLTK工具为基于Python的自然语言处理工具，所述第二处理单元具体被配置为：利用所述NLTK工具基于所述规范化的文本数据生成所述文本输入文件，具体包括：

8.根据权利要求7所述的一种基于改进hLDA模型的层次化主题生成方法系统，其特征在于，所述第二处理单元具体被配置为：所述文本输入文件被输入至所述改进的hLDA层次主题模型进行主题抽取，具体包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1-4任一项所述的一种基于改进hLDA模型的层次化主题生成方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-4任一项所述的一种基于改进hLDA模型的层次化主题生成方法中的步骤。

...

【技术特征摘要】

1.一种基于改进hlda模型的层次化主题生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于改进hlda模型的层次化主题生成方法，其特征在于，在所述步骤s1中：

3.根据权利要求1所述的一种基于改进hlda模型的层次化主题生成方法，其特征在于，在所述步骤s2中，所述nltk工具为基于python的自然语言处理工具，利用所述nltk工具基于所述规范化的文本数据生成所述文本输入文件，具体包括：利用所述nltk工具对所述规范化的文本数据进行分句处理和分词处理，并去除其中的标点和数字，提取出其中的词干，对词形进行还原，基于停用词表提出其中的停用词，从而形成所述文本输入文件，所述文本输入文件仅包含若干单词。

4.根据权利要求3所述的一种基于改进hlda模型的层次化主题生成方法，其特征在于，在所述步骤s2中，所述文本输入文件被输入至所述改进的hlda层次主题模型进行主题抽取，具体包括：

5.一种基于改进hlda模型的层次化主题生成系统，其特征在于，所述系统包括：

6.根据权利要求5所述的一种基于改进h...

【专利技术属性】
技术研发人员：孙亚洲，李晓松，程佳军，高强，吕彬，
申请(专利权)人：中国人民解放军军事科学院军事科学信息研究中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人