【技术实现步骤摘要】
基于双语平行语料生成LDA主题模型的方法及装置
本专利技术涉及自然语言处理
,更具体地,涉及一种基于双语平行语料生成LDA主题模型的方法及装置。
技术介绍
LDA(LatentDirichletAllocation,隐式狄利克雷分配)主题模型可以将文档库中每篇文档的主题以概率分布的形式给出,是用来在文档库中发现抽象主题的一种统计模型。其基本思想是,一篇文档可以包含多个主题,每个主题以一定概率隶属于该文档;文档中每一个词都由其中的一个主题生成,并且每个词语以一定概率隶属于某个主题。LDA主题模型产生的主题分布可以看作文档的语义表示,使用主题向量和文档主题分布生成文档的向量表示,能够用于文档分类、聚类、内容丰富度分析、CTR预估等多种任务。LDA主题建模的结果,会根据用户指定的主题数量生成若干个主题模型,每个主题模型包含:隶属于该主题的一组词语,以及每个词语隶属于该主题的概率。因为LDA主题模型是一种无监督的算法,生成的主题模型是在文档库中原始文本的基础上,通过概率统计和推断的方法训练而来,主题模型的精度,取决于主题包含的词语及其概率。因为这种无监督训练获得的主题模型具有不可解释性,加上任何一种语言都具有一词多义、一义多词等现象,导致主题模型中词语概率值存在不准确的问题。
技术实现思路
为了解决利用无监督训练方法获得的主题模型中词语概率值不准确的问题,本专利技术实施例提供一种基于双语平行语料生成LDA主题模型的方法及装置。第一方面,本专利技术实施例提供一种基于双语平行语料 ...
【技术保护点】
1.一种基于双语平行语料生成LDA主题模型的方法,其特征在于,包括:/n对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模,获得第一语言主题模型和第二语言主题模型;/n对所述第一语言主题模型和第二语言主题模型进行词语对齐,获得词语对齐关系;/n基于所述词语对齐关系,对所述第一语言主题模型和第二语言主题模型进行主题对齐,获得所有对齐的第一语言主题和第二语言主题;/n对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语,调整每组对齐的词语隶属于各自语言主题的概率值,并对所述概率值进行归一化处理,获得新的LDA主题模型。/n
【技术特征摘要】
1.一种基于双语平行语料生成LDA主题模型的方法,其特征在于,包括:
对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模,获得第一语言主题模型和第二语言主题模型;
对所述第一语言主题模型和第二语言主题模型进行词语对齐,获得词语对齐关系;
基于所述词语对齐关系,对所述第一语言主题模型和第二语言主题模型进行主题对齐,获得所有对齐的第一语言主题和第二语言主题;
对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语,调整每组对齐的词语隶属于各自语言主题的概率值,并对所述概率值进行归一化处理,获得新的LDA主题模型。
2.根据权利要求1所述的基于双语平行语料生成LDA主题模型的方法,对所述第一语言主题模型和第二语言主题模型进行词语对齐,获得词语对齐关系,具体包括:
在所述第一语言主题模型中,取出每个主题所属的前N个词语,形成第一关键词集合,并对所述第一关键词集合去重;
在所述第二语言主题模型中,取出每个主题所属的前N个词语,形成第二关键词集合,并对所述第二关键词集合进行去重;
将去重后的所述第一关键词集合与去重后的所述第二关键词集合中的词语进行对齐处理,获得词语对齐关系;
其中,N为大于等于1的自然数。
3.根据权利要求1所述的基于双语平行语料生成LDA主题模型的方法,其特征在于,基于词语对齐关系,对所述第一语言主题模型和第二语言主题模型进行主题对齐,获得所有对齐的第一语言主题和第二语言主题,具体包括:
基于词语对齐关系,考虑第i个第一语言主题和第j个第二语言主题中对齐的词语在各自的主题中的重要度排序,计算所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分;
根据所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分,计算所述第i个第一语言主题和第j个第二语言主题之间的一致性得分;
根据所述第i个第一语言主题和第j个第二语言主题之间的一致性得分,获得所述第一语言主题模型与第二语言主题模型之间的匹配度矩阵;
确定所述匹配度矩阵中既是所在行的最大值也是所在列的最大值的元素,根据所述元素获得对齐的第一语言主题和第二语言主题;
其中,i,j均为大于等于1的自然数。
4.根据权利要求1所述的基于双语平行语料生成LDA主题模型的方法,其特征在于,对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语,调整每组对齐的词语隶属于各自语言主题的概率值,具体为:
对于所述所有对齐的第一语言主题和第二语言主题中的若干组对齐的词语,采用均值化处理方法调整每组对齐的词语隶属于各自语言主题的概率值。
5.根据权利要求1所述的基于双语平行语料生成LDA主题模型的方法,其特征在于,对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA...
【专利技术属性】
技术研发人员:毛红保,
申请(专利权)人:语联网武汉信息技术有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。