结构化数据的溯源方法、溯源模型的训练方法和装置制造方法及图纸

技术编号：41219794 阅读：4 留言：0更新日期：2024-05-09 23:40

本发明专利技术涉及一种结构化数据的溯源方法、溯源模型的训练方法和装置，获取原始表格数据；对所述原始表格数据进行预处理，得到预处理后的表格数据；将所述预处理后的表格数据输入预训练好的结构化数据溯源模型中，生成所述预处理后的表格数据中原始列名对应的还原后的列名；其中，所述预训练好的结构化数据溯源模型基于预训练好的表格理解语言模型和预设的强化学习策略函数确定；所述预训练好的表格理解语言模型为基于监督学习微调得到的表格理解语言模型；所述预设的强化学习策略函数为所述预训练好的结构化数据溯源模型训练过程中，损失函数中预测值的惩罚项。实现对较少的数据量的数据表，也能较为准确的进行英文缩写或拼音缩写。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，特别是涉及结构化数据的溯源方法、溯源模型的训练方法和装置。

技术介绍

1、在当今这个高度信息化的时代，大数据、人工智能、云计算等技术的蓬勃发展，无不意味着数据信息对科技进步、社会发展起到了举足轻重的作用。无论领域、规模，企业要想实现产业转型，保证可持续发展，都必须实现数字化管理。而在结构化数据(表格数据)的规范化管理是重中之重。结构化数据是企业数据中利用率最高的数据，为企业提供了可量化的信息，基于结构化数据的分析可以帮助企业制定更明智的决策；同时，通过对数据的流程监控和分析，帮助企业能够实现更高效地管理；对产、销、存数据的全面分析和挖掘，一方面帮助企业不断提升产品的质量、改进市场营销策略，另一方面能够更加全面、深入地了解客户，提高客户满意度，使得企业具备更强的市场竞争力。

2、在企业生产运营过程中，每天都会以人工或系统工具的方式产生大量的表格数据来记录着重要的研发、生产、销售、采购、财务等信息。然而在制表过程中，往往会出现以下三个问题：1.制表人员为了加快制表效率，常常用业务短语对列名或者表名进行命名，因名称无法用中文而使用拼音缩写或者英文缩写进行代替，且通常不进行名称含义备注，这导致除制表人和表单常用者外，其他人很难理解数据业务含义；2.表格在上传或者下载过程中，一些系统会自动对表名和列名进行缩写化，出现同名异义、异名同义的现象，原本完整的中文信息也遭到破坏；3.其他人为失误或者系统问题导致了列名或者表名的残缺。

3、由于以上几种情况的存在，随着时间的推移，工作人员的更换和制

4、因此，如何实现对较少的数据量的数据表，在不过于依赖前后文信息依赖的情况下，也能较为准确的进行英文缩写或拼音缩写，是目前亟待解决的问题。

技术实现思路

1、本专利技术提供一种结构化数据的溯源方法、溯源模型的训练方法和装置，用以解决现有技术中需要大量的数据量，过于依赖前后文信息进行结构表中英文缩写或拼音缩写的问题，实现对较少的数据量的数据表，在不过于依赖前后文信息依赖的情况下，也能较为准确的进行英文缩写或拼音缩写。

2、一种结构化数据溯源模型的训练方法，所述方法包括：获取原始表格数据；对所述原始表格数据进行预处理，得到预处理后的表格数据；将所述预处理后的表格数据输入预训练好的结构化数据溯源模型中，生成所述预处理后的表格数据中原始列名对应的还原后的列名；其中，所述预训练好的结构化数据溯源模型基于预训练好的表格理解语言模型和预设的强化学习策略函数确定；所述预训练好的表格理解语言模型为基于监督学习微调得到的表格理解语言模型；所述预设的强化学习策略函数为所述预训练好的结构化数据溯源模型训练过程中，损失函数中预测值的惩罚项。

3、在其中一个实施例中，所述预训练好的结构化数据溯源模型的确定过程包括：获取数据表的表名称、表内容、需要还原的列名字符串，以及数据表中的真实列名；其中，所述需要还原的列名字符串为数据表中的真实列名对应的英文缩写或拼音缩写；基于数据表的表名称、表内容、需要还原的列名字符串，以及数据表中的真实列名，确定训练集，并将所述训练集输入预训练好的表格理解语言模型，更新所述预训练好的表格理解语言模型的参数，得到目标表格理解语言模型；基于目标表格理解语言模型的参数，确定参考模型的参数以及需要微调的模型的初始参数，并基于所述参考模型的参数以及需要微调的模型的初始参数，结合预设的强化学习策略函数，确定需要微调的模型的最终参数；将所述需要微调的模型确定为预训练好的结构化数据溯源模型。

4、在其中一个实施例中，所述基于所述参考模型的参数以及需要微调的模型的初始参数，结合预设的强化学习策略函数，确定需要微调的模型的最终参数，包括：基于所述参考模型的参数以及需要微调的模型的初始参数，确定预设的强化学习策略函数对应的kl散度函数；基于所述kl散度函数确定不同真实列名下对应的正则化kl奖励；基于所述不同真实列名下对应的正则化kl奖励，确定损失函数中不同真实列名对应预测值的惩罚项，并基于损失函数，确定需要微调的模型的最终参数。

5、在其中一个实施例中，所述基于所述不同真实列名下对应的正则化kl奖励，确定损失函数中不同真实列名对应预测值的惩罚项，并基于损失函数，确定需要微调的模型的最终参数，包括：将所述不同真实列名下对应的正则化kl奖励，确定为损失函数中不同真实列名对应预测值的惩罚系数，并基于损失函数，确定需要微调的模型的最终参数；或，将所述不同真实列名下对应的正则化kl奖励，确定为损失函数中不同真实列名对应预测值的累加惩罚项，并基于损失函数，确定需要微调的模型的最终参数。

6、在其中一个实施例中，若损失函数为交叉熵损失函数，且将所述不同真实列名下对应的正则化kl奖励，确定为损失函数中不同真实列名对应的预测值的惩罚系数；或，若损失函数为交叉熵损失函数，且将所述不同真实列名下对应的正则化kl奖励，确定为损失函数中不同真实列名对应的预测值的累加惩罚项；或，若损失函数为均方误差损失函数，且将不同真实列名下对应的正则化kl奖励，确定为损失函数中不同真实列名对应的预测值的惩罚系数；或，若损失函数为均方误差损失函数，且将所述不同真实列名下对应的正则化kl奖励，确定为损失函数中不同真实列名对应的预测值的累加惩罚项。

7、在其中一个实施例中，第i个真实列名对应的正则化kl奖励的表达式为：其中，r(s0,a0,yi)表示第i个真实列名对应的初始奖励，基于需要微调模型的初始参数以及第i个真实列名确定；βkl(πθ(at|st)||π0(at|st)表示预设的强化学习策略函数对应的kl散度函数，β是动态自适应的kl系数，πθ(at|st)表示需要微调模型的策略函数，π0(at|st)表示参考模型的策略函数。

8、在其中一个实施例中，所述获取原始表格数据，包括：响应于用户对数据库连接信息的选择以及连接操作，获取数据库中的原始表格数据。

9、本专利技术还提供一种结构化数据的溯源方法，所述方法包括：获取数据表的表名称、表内容、需要还原的列名字符串，以及数据表中的真实列名；其中，所述需要还原的列名字符串为数据表中的真实列名对应的英文缩写或拼音缩写；基于数据表的表名称、表内容、需要还原的列名字符串，以及数据表中的真实列名，确定训练集，并将所述训练集输入预训练好的表格理解语言模型，更新所述预训练好的表格理解语言模型的参数，得本文档来自技高网...

【技术保护点】

1.一种结构化数据的溯源方法，其特征在于，包括：

2.如权利要求1所述的结构化数据的溯源方法，其特征在于，所述预训练好的结构化数据溯源模型的确定过程包括：

3.如权利要求2所述的结构化数据的溯源方法，其特征在于，所述基于所述参考模型的参数以及需要微调的模型的初始参数，结合预设的强化学习策略函数，确定需要微调的模型的最终参数，包括：

4.如权利要求3所述的结构化数据的溯源方法，其特征在于，所述基于所述不同真实列名下对应的正则化KL奖励，确定损失函数中不同真实列名对应预测值的惩罚项，并基于损失函数，确定需要微调的模型的最终参数，包括：

5.如权利要求4所述的结构化数据的溯源方法，其特征在于，

6.如权利要求3至5任一项所述的结构化数据的溯源方法，其特征在于，第i个真实列名对应的正则化KL奖励的表达式为：

7.如权利要求1所述的结构化数据的溯源方法，其特征在于，所述获取原始表格数据，包括：

8.一种结构化数据溯源模型的训练方法，其特征在于，所述方法包括：

9.一种结构化数据的溯源装置，其特征在于，所述装置包括：

10.一种结构化数据溯源模型的训练装置，其特征在于，所述装置包括：

...

【技术特征摘要】

1.一种结构化数据的溯源方法，其特征在于，包括：

2.如权利要求1所述的结构化数据的溯源方法，其特征在于，所述预训练好的结构化数据溯源模型的确定过程包括：

4.如权利要求3所述的结构化数据的溯源方法，其特征在于，所述基于所述不同真实列名下对应的正则化kl奖励，确定损失函数中不同真实列名对应预测值的惩罚项，并基于损失函数，确定需要微调...

【专利技术属性】
技术研发人员：郑聪，单超炳，龚小龙，罗杨杨，麻志毅，
申请(专利权)人：浙江省北大信息技术高等研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人