一种文本主题确认模型及其构建方法、装置及应用制造方法及图纸

技术编号:38125718 阅读:16 留言:0更新日期:2023-07-08 09:29
本申请提出了一种文本主题确认模型及其构建方法、装置及应用,包括以下步骤:构建文本主题确认模型,包含文本主题确认、主题词确认、滑动窗口、概率分布和主题确认模块;输入多个训练文本,模型获取文本和主题词的概率分布,并生成自适应滑动窗口以获取共现词对;根据共现词对的条件概率分布计算生成概率分布,用于模型训练;主题确认模块根据生成概率分布获取每个训练文本和词汇的主题分布,最终生成对应文本的主题分布。本方案通过自适应生成滑动窗口的大小可以增强模型对长文本部分的适应能力,并缓解短文本中的关键信息,可以在更短的时间内准确的对文本进行主题确认。时间内准确的对文本进行主题确认。时间内准确的对文本进行主题确认。

【技术实现步骤摘要】
一种文本主题确认模型及其构建方法、装置及应用


[0001]本申请涉及自然语言处理领域,特别是涉及一种文本主题模型及其构建方法、装置及应用。

技术介绍

[0002]自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,旨在研究如何让计算机能够处理和理解人类语言,自然语言处理技术涵盖了从基本的文本处理和语言学分析,到语音识别、文本分类、机器翻译、问答系统等各种应用领域。
[0003]文本主题模型(Topic Model)是一种基于统计概率模型的自然语言处理方法,用于从大规模文本语料库中挖掘主题信息,它可以帮助我们理解文本中的潜在结构,发现潜在主题,并通过主题之间的关系推断出文本的含义,文本主题模型的核心思想是将每个文本表示为多个主题的线性组合,其中每个主题又由多个单词组成,主题的数量是一个超参数,需要人工设定,而主题中单词的概率分布则是模型需要学习的参数。
[0004]常用的文本主题模型包括潜在语义分析(Latent Semantic Analysis,LSA)、潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)、隐狄利克雷分配(Hierarchical Dirichlet Process,HDP)等,其中LDA是最为常见的一种文本主题模型,它基于贝叶斯概率模型,将文本中的每个单词看作是由一些主题混合而成,LDA模型的和核心思想是:对于每个文本,它是由若干单词以一定概率组合而成的,换言之,LDA模型将文本表示为主题的分布,将主题表示为单词的分布,通过对文本中单词的出现情况进行建模,自动推断出每个文本的主题分布和每个主题的单词分布,然而,LDA模型在处理短文本数据或长短分布不均文本数据时,LDA还是存在很大缺陷的,LDA模型在处理短文本数据时由于短文本数据通常只包含很少的词语,这使得LDA很难从中提取有意义的主题,由于LDA假设每个文本包含多个主题,因此对于短文本数据,文本中的词语很可能只涉及到其中的一个或几个主题,从而导致主题无法被准确识别,LDA模型在处理长短分布不均文本数据时会导致LDA的性能下降,因为长文本会在模型中占据更多的主题分布空间,而段文本只占据很少的空间,这会导致短文本的主题分布不准确。
[0005]BTM模型是一种用于主题建模的技术,它是一种无监督的方法,可以自动地从大规模文本中挖掘出潜在的主题,并将每篇文本分配到一个或多个主题中,BTM假设文本中的每个词都是与其他词配对而成的词对,然后基于词对的共现频率来建模获取主题分布,虽然BTM在处理短文本数据方面表现良好,但是在长文本数据上,BTM也存在一些缺陷,BTM需要计算文本中所有词对的共现频率矩阵,因此对于大规模文本数据,计算量非常大,需要大量的计算资源,且BTM只考虑词对的共现频率,而没有考虑到词对之间的语义相关性,这导致BTM很难处理一些语义相关性比较强的词汇,BTM在处理长文本数据时,由于长文本数据包含了大量的词对,这使得BTM很难从中提取主题信息,此外,长文本数据中可能存在多个主题,BTM难以捕捉这些主题之间的关系,从而导致主题分配的精度下降。
[0006]综上所述,亟需一种可以对长短不均文本进行主题确认的方法,且计算量小,准确性高。

技术实现思路

[0007]本申请实施例提供了一种文本主题确认模型及其构建方法、装置及应用,可以构建一个自适应的滑动窗口,自适应滑动窗口根据文档的长度进行自动调整,以增强对长文本部分的适应能力,还可以用来缓解短文本部分的稀疏问题,相比于常规的文本主题模型准确性更高而且时间消耗明显降低。
[0008]第一方面,本申请实施例提供了一种文本确认模型的构建方法,所述方法包括:
[0009]构建文本主题确认模型,所述文本主题确认模型包括文本主题确认模块、主题词确认模块、滑动窗口生成模块、概率分布生成模块以及主题分布确认模块,获取一语料库,所述语料库中包含多个训练文本,将所述训练文本输入到所述文本主题确认模型中;
[0010]所述文本主题确认模块获取每一训练文本中的文本主题概率分布,每一训练文本的文本主题概率分布表示每一主题维度在不同训练文本中的概率分布,所述主题词确认模块获取训练文本中的每一词汇的主题词概率分布,所述主题词概率分布表示每一主题维度在不同词汇上的概率分布;
[0011]所述滑动窗口生成模块根据训练文本的长短为每一训练文本生成自适应滑动窗口,根据每一训练文本的自适应滑动窗口、文本主题概率分布以及主题词概率分布获取所述训练文本中的共现词对;
[0012]所述概率分布生成模块获取每一共现词对中的词汇在不同主题维度下的条件概率分布,根据所有共现词对在不同主题维度下的条件概率分布计算所述训练文本的生成概率分布,所述生成概率分布表示所述训练文本中的词汇在不同主题维度下的概率分布情况的乘积,当所述生成概率分布满足设定条件时,完成模型训练;
[0013]所述主题分布确认模块根据生成概率分布获取每一训练文本的主题分布、每一词汇的主题分布以及每一训练文本的自适应窗口信息,根据所述每一训练文本的主题分布、每一词汇的主题分布以及每一训练文本的自适应窗口信息获取对应文本的最终主题分布。
[0014]第二方面,本申请实施例提供了一种文本主题确认方法,包括:
[0015]获取至少一待确认文本,将所述待确认文本送入训练好的文本主题确认模型中,所述文本主题确认模型包括文本主题确认模块、主题词确认模块、滑动窗口生成模块、概率分布生成模块以及主题分布确认模块;
[0016]所述文本主题确认模块获取待确认文本中的文本主题概率分布,所述主题词确认模块获取待确认文本中的每一词汇的主题词概率分布;
[0017]所述滑动窗口生成模块根据待确认文本的长短为每一训练文本生成自适应滑动窗口,根据每一待确认文本的自适应滑动窗口、文本主题概率分布以及主题词概率分布获取所述待确认文本中的共现词对;
[0018]所述概率分布生成模块获取每一共现词对中的词汇在不同主题维度下的条件概率分布,根据所有共现词对在不同主题维度下的条件概率分布计算所述待确认文本的生成概率分布;
[0019]所述主题分布确认模块根据生成概率分布获取每一待确认文本的主题分布、每一
词汇的主题分布以及每一待确认文本的自适应窗口信息,根据所述每一待确认文本的主题分布、每一词汇的主题分布以及每一待确认文本的自适应窗口信息获取对应文本的最终主题分布。
[0020]第三方面,本申请实施例提供了一种文本主题确认模型的构建装置,包括:
[0021]构建模块:构建文本主题确认模型,所述文本主题确认模型包括文本主题确认模块、主题词确认模块、滑动窗口生成模块、概率分布生成模块以及主题确认模块,获取一语料库,所述语料库中包含多个训练文本,将所述训练文本输入到所述文本主题确认模型中;
[0022]概率分布模块:所述文本主题确认模块获取每一训练文本中的文本主题概率分布,每一训练文本的文本主题概率分布表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本主题确认模型及其构建方法,其特征在于,包括以下步骤:构建文本主题确认模型,所述文本主题确认模型包括文本主题确认模块、主题词确认模块、滑动窗口生成模块、概率分布生成模块以及主题分布确认模块,获取一语料库,所述语料库中包含多个训练文本,将所述训练文本输入到所述文本主题确认模型中;所述文本主题确认模块获取每一训练文本中的文本主题概率分布,每一训练文本的文本主题概率分布表示每一主题维度在不同训练文本中的概率分布,所述主题词确认模块获取训练文本中的每一词汇的主题词概率分布,所述主题词概率分布表示每一主题维度在不同词汇上的概率分布;所述滑动窗口生成模块根据训练文本的长短为每一训练文本生成自适应滑动窗口,根据每一训练文本的自适应滑动窗口、文本主题概率分布以及主题词概率分布获取所述训练文本中的共现词对;所述概率分布生成模块获取每一共现词对中的词汇在不同主题维度下的条件概率分布,根据所有共现词对在不同主题维度下的条件概率分布计算所述训练文本的生成概率分布,所述生成概率分布表示所述训练文本中的词汇在不同主题维度下的概率分布情况的乘积,当所述生成概率分布满足设定条件时,完成模型训练;所述主题分布确认模块根据生成概率分布获取每一训练文本的主题分布、每一词汇的主题分布以及每一训练文本的自适应窗口信息,根据所述每一训练文本的主题分布、每一词汇的主题分布以及每一训练文本的自适应窗口信息获取对应文本的最终主题分布。2.根据权利要求1所述的一种文本主题确认模型的构建方法,其特征在于,在“所述文本主题确认模块获取训练文本中的文本主题概率分布”步骤中,设置主题指示变量,根据所述主题指示变量的不同获取至少一主题维度,再根据每一主题维度在训练文本中不同词语上的多项分布得到每一训练文本的文本主题概率分布。3.根据权利要求1所述的一种文本主题确认模型的构建方法,其特征在于,在“所述主题词确认模块获取训练文本中的每一词汇的主题词概率分布”步骤中,所述主题词概率分布为矩阵表示,矩阵的行表示不同的主题维度,矩阵的列表示词内容和词数量,矩阵内容为主题词概率分布。4.根据权利要求1所述的一种文本主题确认模型的构建方法,其特征在于,在“所述滑动窗口生成模块根据训练文本的长短为每一训练文本生成自适应滑动窗口”步骤中,获取所述训练文本的词序列,设置窗口超参数,使用窗口超参数结合所述词序列长度得到自适应滑动窗口。5.根据权利要求1所述的一种文本主题确认模型的构建方法,其特征在于,在“根据每一训练文本的自适应滑动窗口、文本主题概率分布以及主题词概率分布获取所述训练文本中的共现词对”步骤中,先根据每一训练文本的自适应滑动窗口获取每一训练文本中的词对信息,再根据所述文本主题概率获取多个主题维度,根据每一主题维度获取对应的主题词概率分布,再根据主题词概率分布获取共现词对。6.根据权利要求1所述的一种文本主题确认模型的构建方法,其特征在于,在“所述概率分布生成模块获取每一共现词对中的词汇在不同主题维度下的条件概率分布,根据所有共现词对在不同主题维度下的条件概率分布计算所述训练文本的生成概率分布”步骤中,根据不同主题维度下的文本主题概率分布、主题词概率分布以及自适应滑动窗口来获取词
汇的条件概率分布,所述条件概率分布为在对应主题维度下生成该词汇的概率,将所述条件概率分布进行积分转化得到每一词汇的积分转化结果,并计算所有主题维度下所有词汇的积分转化结果的乘积得到所述训练文本的生成概率分布。7.根据权利要求1所述的一种文本主题确认模型的构建方法,其特征在于,在“根据所...

【专利技术属性】
技术研发人员:李圣权叶俊宏毛云青王国梁葛俊
申请(专利权)人:城云科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1