一种基于新型HDP模型的文档信息提取方法技术

技术编号：24354627 阅读：25 留言：0更新日期：2020-06-03 02:17

本发明专利技术公开了一种基于新型HDP模型的文档信息提取方法，包括步骤：S1、构建引入窗口机制的WHDP模型；S2、获取待提取信息的文本数据，并对其进行预处理；S3、将预处理后的文本数据输入到WHDP模型中进行处理，提取对应的文档主题分布和主题单词分布作为文本信息提取结果。本方法结合吉布斯采用和消息传播算法实现更新主题概率和动态更新主题个数；利用窗口及移动窗口保证了文本单词的顺序性，降低文本语义的混淆，本发明专利技术提出的WHDP模型有更好的收敛性、泛化性，既能自动确定海量文本中的文档主题数，又能避免推理过程词文本上下文信息的丢失。

A document information extraction method based on new HDP model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于新型HDP模型的文档信息提取方法
本专利技术属于文本处理
，具体涉及一种基于新型HDP模型的文档信息提取方法。
技术介绍
随着网络文本的爆炸式增长，从海量文本提取合理的信息是件非常困难的事。在众多的文本处理方法中，主题模型能够对大规模文档集进行文本聚类，使得人们较快地获取到想要的信息。近二十年来，主题模型得到了快速的发展，并扩展出很多模型。现有的主题模型中，LDA(LatentDirichletAllocation，隐含狄利克雷分布)主题模型虽然在文本聚类中取得了较好的效果，但是需要手动确定最优的主题聚类个数，而在海量文本数据中，文档主题数并不能确定。HDP(分层狄利克雷过程)模型是LDA主题模型无参数的一个扩展，它能够自动确定文档的主题个数，训练前不需要预设文档的主题个数，解决了人工确定文档主题数的问题。但是，LDA模型和HDP模型都是基于“次袋”假设，将文本中的词看作是无序的，统计该次在文本中出现的次数，并将词频的组合看作各个数据集，没有考虑文档中词之间的上下文关系，造成了文本语义上的混淆。...

【技术保护点】
1.一种基于新型HDP模型的文档信息提取方法，其特征在于，包括以下步骤：/nS1、在HDP模型中引入窗口机制，构建WHDP模型；/nS2、获取待提取信息的文本数据，并对其进行预处理；/nS3、将预处理后的文本数据输入到WHDP模型中进行处理，提取对应的文档主题分布和主题单词分布作为文本信息提取结果。/n

【技术特征摘要】
1.一种基于新型HDP模型的文档信息提取方法，其特征在于，包括以下步骤：
S1、在HDP模型中引入窗口机制，构建WHDP模型；
S2、获取待提取信息的文本数据，并对其进行预处理；
S3、将预处理后的文本数据输入到WHDP模型中进行处理，提取对应的文档主题分布和主题单词分布作为文本信息提取结果。

2.根据权利要求1所述的基于新型HDP模型的文档信息提取方法，其特征在于，所述步骤S1中的WHDP模型包括顶层、文档层和主题词分布更新层；
所述顶层包括G基分布和H基分布，所述G基分布从H基分布中获取文档层的总体主题分布；
所述文档层包括若干个文档，每个文档d中均设置有若干个窗口，若干个所述窗口将每个文档d划分成对应的若干个片段，所述文档层从G基分布中获取每个文档d的文档主题分布θwin,d，并通过依次移动窗口win来更新文档d中每个窗口win中的文档参数；
所述主题词分布更新层用于根据文档层中所有文档的每个窗口中的文档参数，确定文档层中的主题单词在各个文档中的分布概率
所述文档参数包括文档d中第win个窗口中单词i的主题和第win个窗口中的第i个单词
其中，win∈[1,W]，W为窗口数量；
d∈[1,D]，D为文档层中的文档总数；
i∈[1,N]，N为窗口win中的单词总数。

3.根据权利要求2所述的基于新型HDP模型的文档信息提取方法，其特征在于，在所述WHDP模型中，
所述顶层采用狄利克雷过程中的折棒算法构造G基分布；
所述文档层通过CRF构造算法更新文档d中每个窗口win中的文档参数。

4.根据权利要求1所述的基于新型HDP模型的文档信息提取方法，其特征在于，所述步骤S2中的对文本数据的预处理包括繁体字简化、去停止词、分词和向量化处理。

5.根据权利要求2所述的基于新型HDP模型的文档信息提取方法，其特征在于，所述步骤S3具体为：
S31、初始化预处理后的文本数据中所有单词所属主题的概率主题集合K、狄利克雷先验τ和主题集合K中每个主题对应的单词数nk；
S32、判断WHDP模型是否收敛；
若是，则进入步骤S310；
若否，则进入步骤S33；
S33、计算所有文档中窗口win的每个单词关于主题的概率分布μw,win；
其中，概率分布μw,win包括每个文档d已发现主题k的概率和未发现主题K'的概率
S34、根据已计算单词的概率分布μw,win进行主题的随机采样，判断是否出现主题集合K中没有的主题；
若是，则进入步骤S35；
若否，则进入步骤S36；
S35、更新主题集合，使主题集合中的主题总数和该主题对应...

【专利技术属性】
技术研发人员：吴晓华，曾叶，罗瑜，孙孟凡，余方剑，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人