基于双语平行语料生成LDA主题模型的方法及装置制造方法及图纸

技术编号:24091473 阅读:14 留言:0更新日期:2020-05-09 08:16
本发明专利技术实施例提供一种基于双语平行语料生成LDA主题模型的方法及装置,所述方法包括:对第一语言文档库和与第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模,获得第一语言主题模型和第二语言主题模型;对第一语言主题模型和第二语言主题模型进行词语对齐,获得词语对齐关系;基于所述词语对齐关系,对第一语言主题模型和第二语言主题模型进行主题对齐,获得所有对齐的第一语言主题和第二语言主题;对于所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语,调整每组对齐的词语隶属于各自语言主题的概率值,并对所述概率值进行归一化处理,获得新的LDA主题模型。本发明专利技术实施例提高了主题模型的精度。

The method and device of generating LDA subject model based on Bilingual Parallel Corpus

【技术实现步骤摘要】
基于双语平行语料生成LDA主题模型的方法及装置
本专利技术涉及自然语言处理
,更具体地,涉及一种基于双语平行语料生成LDA主题模型的方法及装置。
技术介绍
LDA(LatentDirichletAllocation,隐式狄利克雷分配)主题模型可以将文档库中每篇文档的主题以概率分布的形式给出,是用来在文档库中发现抽象主题的一种统计模型。其基本思想是,一篇文档可以包含多个主题,每个主题以一定概率隶属于该文档;文档中每一个词都由其中的一个主题生成,并且每个词语以一定概率隶属于某个主题。LDA主题模型产生的主题分布可以看作文档的语义表示,使用主题向量和文档主题分布生成文档的向量表示,能够用于文档分类、聚类、内容丰富度分析、CTR预估等多种任务。LDA主题建模的结果,会根据用户指定的主题数量生成若干个主题模型,每个主题模型包含:隶属于该主题的一组词语,以及每个词语隶属于该主题的概率。因为LDA主题模型是一种无监督的算法,生成的主题模型是在文档库中原始文本的基础上,通过概率统计和推断的方法训练而来,主题模型的精度,取决于主题包含的词语及其概率。因为这种无监督训练获得的主题模型具有不可解释性,加上任何一种语言都具有一词多义、一义多词等现象,导致主题模型中词语概率值存在不准确的问题。
技术实现思路
为了解决利用无监督训练方法获得的主题模型中词语概率值不准确的问题,本专利技术实施例提供一种基于双语平行语料生成LDA主题模型的方法及装置。第一方面,本专利技术实施例提供一种基于双语平行语料生成LDA主题模型的方法,包括:对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模,获得第一语言主题模型和第二语言主题模型;对所述第一语言主题模型和第二语言主题模型进行词语对齐,获得词语对齐关系;基于所述词语对齐关系,对所述第一语言主题模型和第二语言主题模型进行主题对齐,获得所有对齐的第一语言主题和第二语言主题;对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语,调整每组对齐的词语隶属于各自语言主题的概率值,并对所述概率值进行归一化处理,获得新的LDA主题模型。其中,对所述第一语言主题模型和第二语言主题模型进行词语对齐,获得词语对齐关系,具体包括:在所述第一语言主题模型中,取出每个主题所属的前N个词语,形成第一关键词集合,并对所述第一关键词集合去重;在所述第二语言主题模型中,取出每个主题所属的前N个词语,形成第二关键词集合,并对所述第二关键词集合进行去重;将去重后的所述第一关键词集合与去重后的所述第二关键词集合中的词语进行对齐处理,获得词语对齐关系;其中,N为大于等于1的自然数。其中,基于词语对齐关系,对所述第一语言主题模型和第二语言主题模型进行主题对齐,获得所有对齐的第一语言主题和第二语言主题,具体包括:基于词语对齐关系,考虑第i个第一语言主题和第j个第二语言主题中对齐的词语在各自的主题中的重要度排序,计算所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分;根据所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分,计算所述第i个第一语言主题和第j个第二语言主题之间的一致性得分;根据所述第i个第一语言主题和第j个第二语言主题之间的一致性得分,获得所述第一语言主题模型与第二语言主题模型之间的匹配度矩阵;确定所述匹配度矩阵中既是所在行的最大值也是所在列的最大值的元素,根据所述元素获得对齐的第一语言主题和第二语言主题;其中,i,j均为大于等于1的自然数。其中,对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语,调整每组对齐的词语隶属于各自语言主题的概率值,具体为:对于所述所有对齐的第一语言主题和第二语言主题中的若干组对齐的词语,采用均值化处理方法调整每组对齐的词语隶属于各自语言主题的概率值。其中,对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模,获得第一语言主题模型和第二语言主题模型,具体包括:使用基于python语言的gensim工具,对所述第一语言文档库和第二语言文档库分别进行LDA主题建模,获得第一语言主题模型和第二语言主题模型;其中,建模时设置相同的主题数量M。其中,根据所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分,计算所述第i个第一语言主题和第j个第二语言主题之间的一致性得分,具体为:将所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分进行相加,获得所述第i个第一语言主题和第j个第二语言主题之间的一致性得分。第二方面,本专利技术实施例提供一种基于双语平行语料生成LDA主题模型的装置,包括:主题建模模块,用于对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模,获得第一语言主题模型和第二语言主题模型;词语对齐模块,用于对所述第一语言主题模型和第二语言主题模型进行词语对齐,获得词语对齐关系;主题对齐模块,用于基于所述词语对齐关系,对所述第一语言主题模型和第二语言主题模型进行主题对齐,获得所有对齐的第一语言主题和第二语言主题;调整模块,用于对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语,调整每组对齐的词语隶属于各自语言主题的概率值,并对所述概率值进行归一化处理,获得新的LDA主题模型。其中,所述主题对齐模块具体用于:基于词语对齐关系,考虑第i个第一语言主题和第j个第二语言主题中对齐的词语在各自的主题中的重要度排序,计算所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分;根据所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分,计算所述第i个第一语言主题和第j个第二语言主题之间的一致性得分;根据所述第i个第一语言主题和第j个第二语言主题之间的一致性得分,获得所述第一语言主题模型与第二语言主题模型之间的匹配度矩阵;确定所述匹配度矩阵中既是所在行的最大值也是所在列的最大值的元素,根据所述元素获得对齐的第一语言主题和第二语言主题;其中,i,j均为大于等于1且小于等于N的自然数。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的基于双语平行语料生成LDA主题模型的方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的基于双语平行语料生成LDA主题模型的方法的步骤。本专利技术实施例提供的基于双语平行语料生成LDA主题模型的方法及装置,通过结合双语语料,同时对文档库中两种语言的文档分别进行主题建模,通过词语对齐将每个主本文档来自技高网...

【技术保护点】
1.一种基于双语平行语料生成LDA主题模型的方法,其特征在于,包括:/n对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模,获得第一语言主题模型和第二语言主题模型;/n对所述第一语言主题模型和第二语言主题模型进行词语对齐,获得词语对齐关系;/n基于所述词语对齐关系,对所述第一语言主题模型和第二语言主题模型进行主题对齐,获得所有对齐的第一语言主题和第二语言主题;/n对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语,调整每组对齐的词语隶属于各自语言主题的概率值,并对所述概率值进行归一化处理,获得新的LDA主题模型。/n

【技术特征摘要】
1.一种基于双语平行语料生成LDA主题模型的方法,其特征在于,包括:
对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模,获得第一语言主题模型和第二语言主题模型;
对所述第一语言主题模型和第二语言主题模型进行词语对齐,获得词语对齐关系;
基于所述词语对齐关系,对所述第一语言主题模型和第二语言主题模型进行主题对齐,获得所有对齐的第一语言主题和第二语言主题;
对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语,调整每组对齐的词语隶属于各自语言主题的概率值,并对所述概率值进行归一化处理,获得新的LDA主题模型。


2.根据权利要求1所述的基于双语平行语料生成LDA主题模型的方法,对所述第一语言主题模型和第二语言主题模型进行词语对齐,获得词语对齐关系,具体包括:
在所述第一语言主题模型中,取出每个主题所属的前N个词语,形成第一关键词集合,并对所述第一关键词集合去重;
在所述第二语言主题模型中,取出每个主题所属的前N个词语,形成第二关键词集合,并对所述第二关键词集合进行去重;
将去重后的所述第一关键词集合与去重后的所述第二关键词集合中的词语进行对齐处理,获得词语对齐关系;
其中,N为大于等于1的自然数。


3.根据权利要求1所述的基于双语平行语料生成LDA主题模型的方法,其特征在于,基于词语对齐关系,对所述第一语言主题模型和第二语言主题模型进行主题对齐,获得所有对齐的第一语言主题和第二语言主题,具体包括:
基于词语对齐关系,考虑第i个第一语言主题和第j个第二语言主题中对齐的词语在各自的主题中的重要度排序,计算所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分;
根据所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分,计算所述第i个第一语言主题和第j个第二语言主题之间的一致性得分;
根据所述第i个第一语言主题和第j个第二语言主题之间的一致性得分,获得所述第一语言主题模型与第二语言主题模型之间的匹配度矩阵;
确定所述匹配度矩阵中既是所在行的最大值也是所在列的最大值的元素,根据所述元素获得对齐的第一语言主题和第二语言主题;
其中,i,j均为大于等于1的自然数。


4.根据权利要求1所述的基于双语平行语料生成LDA主题模型的方法,其特征在于,对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语,调整每组对齐的词语隶属于各自语言主题的概率值,具体为:
对于所述所有对齐的第一语言主题和第二语言主题中的若干组对齐的词语,采用均值化处理方法调整每组对齐的词语隶属于各自语言主题的概率值。


5.根据权利要求1所述的基于双语平行语料生成LDA主题模型的方法,其特征在于,对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA...

【专利技术属性】
技术研发人员:毛红保
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1