【技术实现步骤摘要】
一种文本主题确认模型及其构建方法、装置及应用
[0001]本申请涉及自然语言处理领域,特别是涉及一种文本主题模型及其构建方法、装置及应用。
技术介绍
[0002]自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,旨在研究如何让计算机能够处理和理解人类语言,自然语言处理技术涵盖了从基本的文本处理和语言学分析,到语音识别、文本分类、机器翻译、问答系统等各种应用领域。
[0003]文本主题模型(Topic Model)是一种基于统计概率模型的自然语言处理方法,用于从大规模文本语料库中挖掘主题信息,它可以帮助我们理解文本中的潜在结构,发现潜在主题,并通过主题之间的关系推断出文本的含义,文本主题模型的核心思想是将每个文本表示为多个主题的线性组合,其中每个主题又由多个单词组成,主题的数量是一个超参数,需要人工设定,而主题中单词的概率分布则是模型需要学习的参数。
[0004]常用的文本主题模型包括潜在语义分析(Latent Semantic Analysis,LSA)、潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)、隐狄利克雷分配(Hierarchical Dirichlet Process,HDP)等,其中LDA是最为常见的一种文本主题模型,它基于贝叶斯概率模型,将文本中的每个单词看作是由一些主题混合而成,LDA模型的和核心思想是:对于每个文本,它是由若干单词以一定概率组合而成的,换言之,LDA模型将文本表示为主题的 ...
【技术保护点】
【技术特征摘要】
1.一种文本主题确认模型及其构建方法,其特征在于,包括以下步骤:构建文本主题确认模型,所述文本主题确认模型包括文本主题确认模块、主题词确认模块、滑动窗口生成模块、概率分布生成模块以及主题分布确认模块,获取一语料库,所述语料库中包含多个训练文本,将所述训练文本输入到所述文本主题确认模型中;所述文本主题确认模块获取每一训练文本中的文本主题概率分布,每一训练文本的文本主题概率分布表示每一主题维度在不同训练文本中的概率分布,所述主题词确认模块获取训练文本中的每一词汇的主题词概率分布,所述主题词概率分布表示每一主题维度在不同词汇上的概率分布;所述滑动窗口生成模块根据训练文本的长短为每一训练文本生成自适应滑动窗口,根据每一训练文本的自适应滑动窗口、文本主题概率分布以及主题词概率分布获取所述训练文本中的共现词对;所述概率分布生成模块获取每一共现词对中的词汇在不同主题维度下的条件概率分布,根据所有共现词对在不同主题维度下的条件概率分布计算所述训练文本的生成概率分布,所述生成概率分布表示所述训练文本中的词汇在不同主题维度下的概率分布情况的乘积,当所述生成概率分布满足设定条件时,完成模型训练;所述主题分布确认模块根据生成概率分布获取每一训练文本的主题分布、每一词汇的主题分布以及每一训练文本的自适应窗口信息,根据所述每一训练文本的主题分布、每一词汇的主题分布以及每一训练文本的自适应窗口信息获取对应文本的最终主题分布。2.根据权利要求1所述的一种文本主题确认模型的构建方法,其特征在于,在“所述文本主题确认模块获取训练文本中的文本主题概率分布”步骤中,设置主题指示变量,根据所述主题指示变量的不同获取至少一主题维度,再根据每一主题维度在训练文本中不同词语上的多项分布得到每一训练文本的文本主题概率分布。3.根据权利要求1所述的一种文本主题确认模型的构建方法,其特征在于,在“所述主题词确认模块获取训练文本中的每一词汇的主题词概率分布”步骤中,所述主题词概率分布为矩阵表示,矩阵的行表示不同的主题维度,矩阵的列表示词内容和词数量,矩阵内容为主题词概率分布。4.根据权利要求1所述的一种文本主题确认模型的构建方法,其特征在于,在“所述滑动窗口生成模块根据训练文本的长短为每一训练文本生成自适应滑动窗口”步骤中,获取所述训练文本的词序列,设置窗口超参数,使用窗口超参数结合所述词序列长度得到自适应滑动窗口。5.根据权利要求1所述的一种文本主题确认模型的构建方法,其特征在于,在“根据每一训练文本的自适应滑动窗口、文本主题概率分布以及主题词概率分布获取所述训练文本中的共现词对”步骤中,先根据每一训练文本的自适应滑动窗口获取每一训练文本中的词对信息,再根据所述文本主题概率获取多个主题维度,根据每一主题维度获取对应的主题词概率分布,再根据主题词概率分布获取共现词对。6.根据权利要求1所述的一种文本主题确认模型的构建方法,其特征在于,在“所述概率分布生成模块获取每一共现词对中的词汇在不同主题维度下的条件概率分布,根据所有共现词对在不同主题维度下的条件概率分布计算所述训练文本的生成概率分布”步骤中,根据不同主题维度下的文本主题概率分布、主题词概率分布以及自适应滑动窗口来获取词
汇的条件概率分布,所述条件概率分布为在对应主题维度下生成该词汇的概率,将所述条件概率分布进行积分转化得到每一词汇的积分转化结果,并计算所有主题维度下所有词汇的积分转化结果的乘积得到所述训练文本的生成概率分布。7.根据权利要求1所述的一种文本主题确认模型的构建方法,其特征在于,在“根据所...
【专利技术属性】
技术研发人员:李圣权,叶俊宏,毛云青,王国梁,葛俊,
申请(专利权)人:城云科技中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。