【技术实现步骤摘要】
一种基于新型HDP模型的文档信息提取方法
本专利技术属于文本处理
,具体涉及一种基于新型HDP模型的文档信息提取方法。
技术介绍
随着网络文本的爆炸式增长,从海量文本提取合理的信息是件非常困难的事。在众多的文本处理方法中,主题模型能够对大规模文档集进行文本聚类,使得人们较快地获取到想要的信息。近二十年来,主题模型得到了快速的发展,并扩展出很多模型。现有的主题模型中,LDA(LatentDirichletAllocation,隐含狄利克雷分布)主题模型虽然在文本聚类中取得了较好的效果,但是需要手动确定最优的主题聚类个数,而在海量文本数据中,文档主题数并不能确定。HDP(分层狄利克雷过程)模型是LDA主题模型无参数的一个扩展,它能够自动确定文档的主题个数,训练前不需要预设文档的主题个数,解决了人工确定文档主题数的问题。但是,LDA模型和HDP模型都是基于“次袋”假设,将文本中的词看作是无序的,统计该次在文本中出现的次数,并将词频的组合看作各个数据集,没有考虑文档中词之间的上下文关系,造成了文本语义上的混淆。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的基于新型HDP模型的文档信息提取方法解决了现有的利用HDP模型提取文本信息时,没有考虑文档中词之间的上下文关系,造成语义上混淆的问题。为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于新型HDP模型的文档信息提取方法,其特征在于,包括以下步骤:S1、在HDP模型中引入窗口机制,构建WHDP模型; >S2、获取待提取信息的文本数据,并对其进行预处理;S3、将预处理后的文本数据输入到WHDP模型中进行处理,提取对应的文档主题分布和主题单词分布作为文本信息提取结果。进一步地,所述步骤S1中的WHDP模型包括顶层、文档层和主题词分布更新层;所述顶层包括G基分布和H基分布,所述G基分布从H基分布中获取文档层的总体主题分布;所述文档层包括若干个文档,每个文档d中均设置有若干个窗口,若干个所述窗口将每个文档d划分成对应的若干个片段,所述文档层从G基分布中获取每个文档d的文档主题分布θwin,d,并通过依次移动窗口win来更新文档d中每个窗口win中的文档参数;所述主题词分布更新层用于根据文档层中所有文档的每个窗口中的文档参数,确定文档层中的主题单词在各个文档中的分布概率所述文档参数包括文档d中第win个窗口中单词i的主题和第win个窗口中的第i个单词其中,win∈[1,W],W为窗口数量;d∈[1,D],D为文档层中的文档总数;i∈[1,N],N为窗口win中的单词总数。进一步地,在所述WHDP模型中,所述顶层采用狄利克雷过程中的折棒算法构造G基分布;所述文档层通过CRF构造算法更新文档d中每个窗口win中的文档参数。进一步地,所述步骤S2中的对文本数据的预处理包括繁体字简化、去停止词、分词和向量化处理。进一步地,所述步骤S3具体为:S31、初始化预处理后的文本数据中所有单词所属主题的概率主题集合K、狄利克雷先验τ和主题集合K中每个主题对应的单词数nk;S32、判断WHDP模型是否收敛;若是,则进入步骤S310;若否,则进入步骤S33;S33、计算所有文档中窗口win的每个单词关于主题的概率分布μw,win;其中,概率分布μw,win包括每个文档d已发现主题k的概率和未发现主题K'的概率k∈K;S34、根据已计算单词的概率分布μw,win进行主题的随机采样,判断是否出现主题集合K中没有的主题;若是,则进入步骤S35;若否,则进入步骤S36;S35、更新主题集合,使主题集合中的主题总数和该主题对应的单词数增加1,同时更新狄利克雷先验τ,并根据更新后的τ更新概率分布进入步骤S36;S36、判断更新后的主题集合中的每个主题是否存在对应的单词;若是,则进入步骤S38;若否,则进入步骤S37;S37、将该主题对应的单词数清零,并进入步骤S39;S38、将该主题从主题集合中删除,并进入步骤S39;S39、根据更新后的主题集合或更新后的主题对应单词数nk,计算当前概率分布并根据概率分布计算文档主题分布θd(k)和主题单词分布并返回步骤S32;S310、将当前文档主题分布θd(k)和主题单词分布作为文档信息提取结果。进一步地,所述步骤S32中,通过对当前WHDP模型的混淆度进行评估,当WHDP模型的混淆度设定时间内稳定不变时,则WHDP模型收敛。进一步地,所述步骤S33中,文档d中窗口win的每个单词已发现主题k的概率为:式中,μd-w,win(k)为文档d中窗口win中除了单词w外其他单词的主题概率;μw,-win(k)为除了窗口win外其他窗口中每个单词的主题概率;a为顶层的第一聚集参数;τ(k)为已发现主题k的狄利克雷先验;β为主题词分布更新层的聚集参数;文档d中窗口win的每个单词未发现k'的概率为:式中,C为文档层中的词汇量;τ(K')为未发现主题K'的狄利克雷先验。进一步地,所述步骤S35中,更新的狄利克雷先验τ包括已发现主题k的狄利克雷先验τ(k)和未发现主题K'的狄利克雷先验τ(K');其中,已发现主题k的狄利克雷先验τ(k)为:式中,π(1)k、π(2)k、π(1)l和π(2)l均为一个随机概率分布,且Nd为文档d的词汇量,xw,win为文档d窗口win中的第w个单词;γ为顶层的第二聚集参数,μdw,win(t)为当前主题的概率;K0为主题集合中的主题总数,l=1,2,3,...K0。进一步地,所述步骤S39中的文档主题分布θd(k)为:式中,μd.,win(k)为文档d中窗口win所有单词的主题概率;所述主题单词分布为:式中,μw,.(k)为所有窗口中单词w的主题概率。本专利技术的有益效果为:本专利技术提供的基于新型HDP模型的文档信息提取方法,结合吉布斯采用和消息传播算法实现更新主题概率和动态更新主题个数;利用窗口及移动窗口保证了文本单词的顺序性,降低文本语义的混淆,本专利技术提出的WHDP模型有更好的收敛性、泛化性,既能自动确定海量文本中的文档主题数,又能避免推理过程词文本上下文信息的丢失。附图说明图1为本专利技术提供的基于新型HDP模型的文档信息提取方法流程图。图2为本专利技术提供的WHDP模型原理图。图3为本专利技术提供的WHDP模型近似推理方法的原理图。图4为本专利技术提供的WHDP模型对待提取信息文本的处理方法流程图。具体实施方式下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的本文档来自技高网...
【技术保护点】
1.一种基于新型HDP模型的文档信息提取方法,其特征在于,包括以下步骤:/nS1、在HDP模型中引入窗口机制,构建WHDP模型;/nS2、获取待提取信息的文本数据,并对其进行预处理;/nS3、将预处理后的文本数据输入到WHDP模型中进行处理,提取对应的文档主题分布和主题单词分布作为文本信息提取结果。/n
【技术特征摘要】
1.一种基于新型HDP模型的文档信息提取方法,其特征在于,包括以下步骤:
S1、在HDP模型中引入窗口机制,构建WHDP模型;
S2、获取待提取信息的文本数据,并对其进行预处理;
S3、将预处理后的文本数据输入到WHDP模型中进行处理,提取对应的文档主题分布和主题单词分布作为文本信息提取结果。
2.根据权利要求1所述的基于新型HDP模型的文档信息提取方法,其特征在于,所述步骤S1中的WHDP模型包括顶层、文档层和主题词分布更新层;
所述顶层包括G基分布和H基分布,所述G基分布从H基分布中获取文档层的总体主题分布;
所述文档层包括若干个文档,每个文档d中均设置有若干个窗口,若干个所述窗口将每个文档d划分成对应的若干个片段,所述文档层从G基分布中获取每个文档d的文档主题分布θwin,d,并通过依次移动窗口win来更新文档d中每个窗口win中的文档参数;
所述主题词分布更新层用于根据文档层中所有文档的每个窗口中的文档参数,确定文档层中的主题单词在各个文档中的分布概率
所述文档参数包括文档d中第win个窗口中单词i的主题和第win个窗口中的第i个单词
其中,win∈[1,W],W为窗口数量;
d∈[1,D],D为文档层中的文档总数;
i∈[1,N],N为窗口win中的单词总数。
3.根据权利要求2所述的基于新型HDP模型的文档信息提取方法,其特征在于,在所述WHDP模型中,
所述顶层采用狄利克雷过程中的折棒算法构造G基分布;
所述文档层通过CRF构造算法更新文档d中每个窗口win中的文档参数。
4.根据权利要求1所述的基于新型HDP模型的文档信息提取方法,其特征在于,所述步骤S2中的对文本数据的预处理包括繁体字简化、去停止词、分词和向量化处理。
5.根据权利要求2所述的基于新型HDP模型的文档信息提取方法,其特征在于,所述步骤S3具体为:
S31、初始化预处理后的文本数据中所有单词所属主题的概率主题集合K、狄利克雷先验τ和主题集合K中每个主题对应的单词数nk;
S32、判断WHDP模型是否收敛;
若是,则进入步骤S310;
若否,则进入步骤S33;
S33、计算所有文档中窗口win的每个单词关于主题的概率分布μw,win;
其中,概率分布μw,win包括每个文档d已发现主题k的概率和未发现主题K'的概率
S34、根据已计算单词的概率分布μw,win进行主题的随机采样,判断是否出现主题集合K中没有的主题;
若是,则进入步骤S35;
若否,则进入步骤S36;
S35、更新主题集合,使主题集合中的主题总数和该主题对应...
【专利技术属性】
技术研发人员:吴晓华,曾叶,罗瑜,孙孟凡,余方剑,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。