一种信息确定方法、设备及存储介质技术

技术编号:38630389 阅读:19 留言:0更新日期:2023-08-31 18:29
本申请提供一种信息确定方法、设备及存储介质,包括:对待处理数据表的信息分词,并确定分词后待处理数据表中每一词对应的主题;确定每一主题中的每一词的数量,并确定主题词汇数量集合,基于主题第一频率对主题词汇数量集合中的每一数量进行处理,并基于词第二频率对第一处理后的主题词汇数量集合进行处理,得到第二处理后的主题词汇数量集合;基于第一处理后的主题词汇数量集合中词数量确定文档主题分布概率,基于第二处理后的主题词汇数量集合中词数量确定词汇主题分布概率;基于文档主题分布概率、词汇主题分布概率和目标旋转因子,确定目标词汇文档分布概率;基于目标词汇文档分布概率和词汇主题分布概率,确定待处理数据表的目标主题。的目标主题。的目标主题。

【技术实现步骤摘要】
一种信息确定方法、设备及存储介质


[0001]本申请实施例涉及数据仓库的信息确定
,涉及但不限于一种信息确定方法、设备及存储介质。

技术介绍

[0002]数据仓库是当前企业为了给上层业务提供统一数据来源和口径的一种数据方式,为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。且,数据仓库可以为需要业务智能化的企业提供指导业务流程改进、监视时间、成本、质量以及控制等。当前,数据仓库领域对于数据表进行主题域标记的方式大部分为人工标记,人工标记存在标记效率低下、准确率低、对打标人员经验依赖度较高等问题,因此通过数据表文本进行自动化的智能识别成为了研究的重要方向。
[0003]目前,常见的方案是通过主题建模的方式对数据表进行主题识别,一般是通过狄利克雷分布(Latent Dirichlet Allocation,LDA)算法对数据表的数据集进行主题建模,然后将被预测的数据表输入到模型中获得主题预测的结果。并且,LDA及其他的主题建模算法适用的场景一般是小说、论文、书籍等文本信息量较大、语义清晰且连贯的场景。但是,鉴于数据表包含的有效信息少、字段关联性不高、存在大量无业务意义词频的情况,LDA算法中要通过现有数据集对狄利克雷分布的α和β进行收敛,这对于数据表这种特殊场景的数据集的收敛效果不佳,导致数据表的主题预测不准确。

技术实现思路

[0004]本申请实施例提供一种信息确定方法、设备及存储介质,以解决相关的对数据集的主题的预测方案中,针对数据表这种特殊场景的数据集的主题的预测准确度较低的问题。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种信息确定方法,包括:
[0007]对待处理数据表中的信息进行分词处理,并确定分词后的所述待处理数据表中每一词对应的主题;
[0008]确定每一主题中的每一词的数量,并基于所述数量以及主题和词的关系得到主题词汇数量集合;其中,所述主题词汇数量集合中包括每一主题中的每一词的数量;
[0009]基于主题的第一频率对所述主题词汇数量集合中的每一数量进行处理,并基于词的第二频率对第一处理后的所述主题词汇数量集合进行处理,得到第二处理后的主题词汇数量集合;
[0010]基于所述第一处理后的主题词汇数量集合中词的数量,确定每一主题的文档主题分布概率,并基于所述第二处理后的主题词汇数量集合中词的数量,确定每一词的词汇主题分布概率;
[0011]基于所述每一主题的文档主题分布概率、所述每一词的词汇主题分布概率和目标
旋转因子,确定每一主题对应的每一词的目标词汇文档分布概率;
[0012]基于所述每一主题对应的每一词的目标词汇文档分布概率和所述每一词的词汇主题分布概率,从所述主题中确定所述待处理数据表的目标主题。
[0013]一种信息确定装置,所述装置包括:
[0014]信息确定模块,用于对待处理数据表中的信息进行分词处理,并确定分词后的所述待处理数据表中每一词对应的主题;
[0015]所述信息确定模块,还用于确定每一主题中的每一词的数量,并基于所述数量以及主题和词的关系得到主题词汇数量集合;其中,所述主题词汇数量集合中包括每一主题中的每一词的数量;
[0016]信息处理模块,用于基于主题的第一频率对所述主题词汇数量集合中的每一数量进行处理,并基于词的第二频率对第一处理后的所述主题词汇数量集合进行处理,得到第二处理后的主题词汇数量集合;
[0017]所述信息确定模块,还用于基于所述第一处理后的主题词汇数量集合中词的数量,确定每一主题的文档主题分布概率,并基于所述第二处理后的主题词汇数量集合中词的数量,确定每一词的词汇主题分布概率;
[0018]所述信息确定模块,还用于基于所述每一主题的文档主题分布概率、所述每一词的词汇主题分布概率和目标旋转因子,确定每一主题对应的每一词的目标词汇文档分布概率;
[0019]主题确定模块,用于基于所述每一主题对应的每一词的目标词汇文档分布概率和所述每一词的词汇主题分布概率,从所述主题中确定所述待处理数据表的目标主题。
[0020]一种信息确定设备,包括:
[0021]存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现上述的方法。
[0022]一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现上述的方法。
[0023]本申请实施例具有以下有益效果:
[0024]通过对待处理数据表中的信息进行分词处理,并确定分词后的待处理数据表中每一词对应的主题,确定每一主题中的每一词的数量,并基于数量以及主题和词的关系得到主题词汇数量集合,之后,基于主题的第一频率对主题词汇数量集合中的每一数量进行处理,并基于词的第二频率对第一处理后的主题词汇数量集合进行处理得到第二处理后的主题词汇数量集合,而且,可以基于第一处理后的主题词汇数量集合中词的数量确定每一主题的文档主题分布概率,并基于第二处理后的主题词汇数量集合中词的数量确定每一词的词汇主题分布概率,从而可以基于每一主题的文档主题分布概率、每一词的词汇主题分布概率和目标旋转因子,确定每一主题对应的每一词的目标词汇文档分布概率,最后可以基于每一主题对应的每一词的目标词汇文档分布概率和每一词的词汇主题分布概率,从主题中确定待处理数据表的目标主题,这样,可以直接通过对数据表中的数据分词后的词建立的主题词汇数量集合中主题的频率和词的频率对每一个数量进行处理,进而基于处理后集合中的数量确定的主题的文档主题分布概率和词汇主题分布概率,来确定目标词汇文档分布概率,从而可以基于目标词汇文档分布概率和词汇主题分布概率进行分析处理,从主题
中预测得到数据表的主题,而不需要使用相关技术中的主题建模算法来确定数据表的主题,保证了针对数据表这种特殊的场景预测出来的主题的准确性。
附图说明
[0025]图1是本申请实施例提供的终端的一个可选的架构示意图;
[0026]图2是本申请实施例提供的一种信息确定方法的流程示意图;
[0027]图3是本申请实施例提供的另一种信息确定方法的流程示意图。
具体实施方式
[0028]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0029]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的
的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0030]下面说明本申请实施例提供的信息确定设备的示例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息确定方法,其特征在于,所述方法包括:对待处理数据表中的信息进行分词处理,并确定分词后的所述待处理数据表中每一词对应的主题;确定每一主题中的每一词的数量,并基于所述数量以及主题和词的关系得到主题词汇数量集合;其中,所述主题词汇数量集合中包括每一主题中的每一词的数量;基于主题的第一频率对所述主题词汇数量集合中的每一数量进行处理,并基于词的第二频率对第一处理后的所述主题词汇数量集合进行处理,得到第二处理后的主题词汇数量集合;基于所述第一处理后的主题词汇数量集合中词的数量,确定每一主题的文档主题分布概率,并基于所述第二处理后的主题词汇数量集合中词的数量,确定每一词的词汇主题分布概率;基于所述每一主题的文档主题分布概率、所述每一词的词汇主题分布概率和目标旋转因子,确定每一主题对应的每一词的目标词汇文档分布概率;基于所述每一主题对应的每一词的目标词汇文档分布概率和所述每一词的词汇主题分布概率,从所述主题中确定所述待处理数据表的目标主题。2.根据权利要求1所述的方法,其特征在于,所述基于主题的第一频率对所述主题词汇数量集合中的每一数量进行处理,并基于词的第二频率对第一处理后的所述主题词汇数量集合进行处理,得到第二处理后的主题词汇数量集合,包括:确定所述主题的所述第一频率和所述词的所述第二频率;确定所述主题中所述第一频率满足第一目标频率值的第一主题和所述第一频率不满足所述第一目标频率值的第二主题;确定所述词中所述第二频率满足第二目标频率值的第一词和所述第二频率不满足所述第二目标频率值的第二词;基于第一权重对所述主题词汇数量集合中的所述第一主题对应的数量进行加权处理,并基于第二权重对所述主题词汇数量集合中的所述第二主题对应的数量进行减权处理,得到所述第一处理后的主题词汇数量集合;基于第三权重对所述第一处理后的主题词汇数量集合中的所述第一词对应的数量进行加权处理,并基于第四权重对所述第一处理后的主题词汇数量集合中的所述第二词对应的数量进行减权处理,得到所述第二处理后的主题词汇数量集合。3.根据权利要求1所述的方法,其特征在于,所述基于所述第一处理后的主题词汇数量集合中词的数量,确定每一主题的文档主题分布概率,并基于所述第二处理后的主题词汇数量集合中词的数量,确定每一词的词汇主题分布概率,包括:确定所述第一处理后的主题词汇数量集合中每一主题下的词的数量和所述第一处理后的主题词汇数量集合中词的第一总数量;基于所述每一主题下的词的数量和所述第一总数量,计算所述每一主题的文档主题分布概率;确定所述第二处理后的主题词汇数量集合中每一词的数量和所述第二处理后的主题词汇数量集合中词的第二总数量;基于所述每一词的数量和所述第二总数量,计算每一词的词汇主题分布概率。
4.根据权利要求1所述的方法,其特征在于,所述基于所述每一主题的文档主题分布概率、所述每一词的词汇主题分布概率和目标旋转因子,确定每一主题对应的每一词的目标词汇文档分布概率,包括:基于第i轮每一主题的文档主题分布概率和第i轮每一词的词汇主题分布概率,计算第i轮每一主题对应的每一词的词汇文档分布概率;基于第i轮每一词的每一主题的旋转因子对所述第i轮每一主题对应的每一词的词汇文档分布概率进行更新,并基于更新后的所述第i轮每一主题对应的每一词的词汇文档分布概率,从所述主题中确定第i轮的每一词的词主题;若所述第i轮的每一词的词主题与第i轮之前N轮确定的词主题相同,确定所述更新后的第i轮每一主题对应的每一词的词汇文档分布概率为所述每一主题对应的每一词的目标词汇文档分布概率。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述第i轮每一词的词主题与当前之前N轮确定的词主题存在不同,确定第i+1轮每一主题的文档主题分布概率和第i+1轮每一词的词汇主题分布概率;基于所述第i+1轮每一主题的文档主题分布概率和所述第i+1轮每一词的词汇主题分布概率,计算第i+1轮每一主题对应的每一词的词汇文档分布概率;基于所述第i轮每一词的词汇主题分布概率、所述第i+1轮每一词的词汇主题分布概率和所述第i轮每一词的每一主题的旋转因子,确定第i+1轮每一词的每一主题的旋转因子;基于所述...

【专利技术属性】
技术研发人员:白乐尹强邸帅王和平
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1