一种信息确定方法、设备及存储介质技术

技术编号：38630389 阅读：19 留言：0更新日期：2023-08-31 18:29

本申请提供一种信息确定方法、设备及存储介质，包括：对待处理数据表的信息分词，并确定分词后待处理数据表中每一词对应的主题；确定每一主题中的每一词的数量，并确定主题词汇数量集合，基于主题第一频率对主题词汇数量集合中的每一数量进行处理，并基于词第二频率对第一处理后的主题词汇数量集合进行处理，得到第二处理后的主题词汇数量集合；基于第一处理后的主题词汇数量集合中词数量确定文档主题分布概率，基于第二处理后的主题词汇数量集合中词数量确定词汇主题分布概率；基于文档主题分布概率、词汇主题分布概率和目标旋转因子，确定目标词汇文档分布概率；基于目标词汇文档分布概率和词汇主题分布概率，确定待处理数据表的目标主题。的目标主题。的目标主题。

全部详细技术资料下载

【技术实现步骤摘要】
一种信息确定方法、设备及存储介质

[0001]本申请实施例涉及数据仓库的信息确定
，涉及但不限于一种信息确定方法、设备及存储介质。

技术介绍

[0002]数据仓库是当前企业为了给上层业务提供统一数据来源和口径的一种数据方式，为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。且，数据仓库可以为需要业务智能化的企业提供指导业务流程改进、监视时间、成本、质量以及控制等。当前，数据仓库领域对于数据表进行主题域标记的方式大部分为人工标记，人工标记存在标记效率低下、准确率低、对打标人员经验依赖度较高等问题，因此通过数据表文本进行自动化的智能识别成为了研究的重要方向。
[0003]目前，常见的方案是通过主题建模的方式对数据表进行主题识别，一般是通过狄利克雷分布(Latent Dirichlet Allocation，LDA)算法对数据表的数据集进行主题建模，然后将被预测的数据表输入到模型中获得主题预测的结果。并且，LDA及其他的主题建模算法适用的场景一般是小说、论文、书籍等文本信息量较大、语义清晰且连贯的场景。但是，鉴于数据表包含的有效信息少、字段关联性不高、存在大量无业务意义词频的情况，LDA算法中要通过现有数据集对狄利克雷分布的α和β进行收敛，这对于数据表这种特殊场景的数据集的收敛效果不佳，导致数据表的主题预测不准确。

技术实现思路

[0004]本申请实施例提供一种信息确定方法、设备及存储介质，以解决相关的对数据集的主题的预测方案中，针对数据表这种特殊场景的数据集的主题的预测准确度较低...

【技术保护点】

【技术特征摘要】
1.一种信息确定方法，其特征在于，所述方法包括：对待处理数据表中的信息进行分词处理，并确定分词后的所述待处理数据表中每一词对应的主题；确定每一主题中的每一词的数量，并基于所述数量以及主题和词的关系得到主题词汇数量集合；其中，所述主题词汇数量集合中包括每一主题中的每一词的数量；基于主题的第一频率对所述主题词汇数量集合中的每一数量进行处理，并基于词的第二频率对第一处理后的所述主题词汇数量集合进行处理，得到第二处理后的主题词汇数量集合；基于所述第一处理后的主题词汇数量集合中词的数量，确定每一主题的文档主题分布概率，并基于所述第二处理后的主题词汇数量集合中词的数量，确定每一词的词汇主题分布概率；基于所述每一主题的文档主题分布概率、所述每一词的词汇主题分布概率和目标旋转因子，确定每一主题对应的每一词的目标词汇文档分布概率；基于所述每一主题对应的每一词的目标词汇文档分布概率和所述每一词的词汇主题分布概率，从所述主题中确定所述待处理数据表的目标主题。2.根据权利要求1所述的方法，其特征在于，所述基于主题的第一频率对所述主题词汇数量集合中的每一数量进行处理，并基于词的第二频率对第一处理后的所述主题词汇数量集合进行处理，得到第二处理后的主题词汇数量集合，包括：确定所述主题的所述第一频率和所述词的所述第二频率；确定所述主题中所述第一频率满足第一目标频率值的第一主题和所述第一频率不满足所述第一目标频率值的第二主题；确定所述词中所述第二频率满足第二目标频率值的第一词和所述第二频率不满足所述第二目标频率值的第二词；基于第一权重对所述主题词汇数量集合中的所述第一主题对应的数量进行加权处理，并基于第二权重对所述主题词汇数量集合中的所述第二主题对应的数量进行减权处理，得到所述第一处理后的主题词汇数量集合；基于第三权重对所述第一处理后的主题词汇数量集合中的所述第一词对应的数量进行加权处理，并基于第四权重对所述第一处理后的主题词汇数量集合中的所述第二词对应的数量进行减权处理，得到所述第二处理后的主题词汇数量集合。3.根据权利要求1所述的方法，其特征在于，所述基于所述第一处理后的主题词汇数量集合中词的数量，确定每一主题的文档主题分布概率，并基于所述第二处理后的主题词汇数量集合中词的数量，确定每一词的词汇主题分布概率，包括：确定所述第一处理后的主题词汇数量集合中每一主题下的词的数量和所述第一处理后的主题词汇数量集合中词的第一总数量；基于所述每一主题下的词的数量和所述第一总数量，计算所述每一主题的文档主题分布概率；确定所述第二处理后的主题词汇数量集合中每一词的数量和所述第二处理后的主题词汇数量集合中词的第二总数量；基于所述每一词的数量和所述第二总数量，计算每一词的词汇主题分布概率。
4.根据权利要求1所述的方法，其特征在于，所述基于所述每一主题的文档主题分布概率、所述每一词的词汇主题分布概率和目标旋转因子，确定每一主题对应的每一词的目标词汇文档分布概率，包括：基于第i轮每一主题的文档主题分布概率和第i轮每一词的词汇主题分布概率，计算第i轮每一主题对应的每一词的词汇文档分布概率；基于第i轮每一词的每一主题的旋转因子对所述第i轮每一主题对应的每一词的词汇文档分布概率进行更新，并基于更新后的所述第i轮每一主题对应的每一词的词汇文档分布概率，从所述主题中确定第i轮的每一词的词主题；若所述第i轮的每一词的词主题与第i轮之前N轮确定的词主题相同，确定所述更新后的第i轮每一主题对应的每一词的词汇文档分布概率为所述每一主题对应的每一词的目标词汇文档分布概率。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：若所述第i轮每一词的词主题与当前之前N轮确定的词主题存在不同，确定第i+1轮每一主题的文档主题分布概率和第i+1轮每一词的词汇主题分布概率；基于所述第i+1轮每一主题的文档主题分布概率和所述第i+1轮每一词的词汇主题分布概率，计算第i+1轮每一主题对应的每一词的词汇文档分布概率；基于所述第i轮每一词的词汇主题分布概率、所述第i+1轮每一词的词汇主题分布概率和所述第i轮每一词的每一主题的旋转因子，确定第i+1轮每一词的每一主题的旋转因子；基于所述...

【专利技术属性】
技术研发人员：白乐，尹强，邸帅，王和平，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人