一种语义结构解析方法、装置、设备及虚拟化系统、介质制造方法及图纸

技术编号：31679056 阅读：42 留言：0更新日期：2022-01-01 10:24

本发明专利技术提供了一种语义结构解析方法、装置、设备及虚拟化系统、介质，所述方法包括：获取元数据；判断所述元数据的语义结构是否完整，所述语义结构至少包括列主题和表主题；若所述语义结构不完整，则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型，得到预测列主题，和/或，将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型，得到预测表主题，将所述语义结构补充完整；将语义结构完整的所述元数据转换为标准语义结构数据。这样，通过预训练模型对数据库资源中缺乏的部分语义结构进行预测，从而得到完整的语义结构，解决软件资源缺乏语义结构的问题，进而完成数据库资源的整合。进而完成数据库资源的整合。进而完成数据库资源的整合。

全部详细技术资料下载

【技术实现步骤摘要】
一种语义结构解析方法、装置、设备及虚拟化系统、介质

[0001]本专利技术涉及数据库
，具体而言，涉及一种语义结构解析方法、装置、设备及虚拟化系统、介质。

技术介绍

[0002]在这个“信息爆炸”的时代，随着云计算、物联网、移动计算、智慧城市、人工智能等领域日新月异的发展，迫使大数据技术必须面对新的现实：数据规模越来越大，数据复杂度越来越高，数据多样性越来越丰富，数据安全要求越来越严格。传统的数据集成技术正面临着严峻的挑战：应用各自为政，数仓等软件资源互不相通，多源异构的软件资源形式及数据存放的格式和数据安全的管理都是烟囱式模型，形成了数据孤岛，无法跨业务集成和使用。在这种情况下，软件资源中的信息往往通过ETL来实现，也造成了业务系统集成工作量大等多种困境。
[0003]其中，阻碍数据库资源整合的最主要困难是软件资源普遍缺乏语义结构的问题。但针对该问题，目前还没有研究方提供可实行的解决方案。

技术实现思路

[0004]本专利技术解决的问题是现有软件资源普遍缺乏语义结构阻碍数据库资源整合。
[0005]为解决上述问题，本专利技术首先提供一种语义结构解析方法，包括：获取元数据；判断所述元数据的语义结构是否完整，所述语义结构至少包括列主题和表主题；若所述语义结构不完整，则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型，得到预测列主题，和/或，将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型，得到预测表主题，将所述语义结构补充完整；将语义结构完整的所述元数据转换...

【技术保护点】

【技术特征摘要】
1.一种语义结构解析方法，其特征在于，包括：获取元数据；判断所述元数据的语义结构是否完整，所述语义结构至少包括列主题和表主题；若所述语义结构不完整，则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型，得到预测列主题，和/或，将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型，得到预测表主题，将所述语义结构补充完整；将语义结构完整的所述元数据转换为标准语义结构数据。2.如权利要求1所述的方法，其特征在于，所述模式匹配预训练模型的训练过程为：获取已标注的样本数据；提取所述样本数据的数据特征、文本语义特征和统计特征；将所述样本数据的数据特征、文本语义特征和统计特征重组为所述样本数据的特征向量；将所述样本数据的特征向量和标注作为输入参数，对预设的神经网络模型进行训练，得到模式匹配预训练模型。3.如权利要求1所述的方法，其特征在于，所述深度语义表征预训练模型的训练过程为：获取已标注的样本数据；将所述样本数据按照预设规则进行分块，获取多个样本数据集，所述样本数据集中的每个样本数据的标注相同；提取所述样本数据的数据特征、文本语义特征和统计特征；将样本数据集中所有样本数据的数据特征、文本语义特征和统计特征重组为所述样本数据集的特征向量；将所述样本数据集的特征向量和标注作为输入参数，对预设的神经网络模型进行训练，得到深度语义表征预训练模型。4.如权利要求1所述的方法，其特征在于，所述方法还包括：对所述标准语义结构数据的表主题进行分类，建立分类映射表；将所述标准语义结构数据和所述分类映射表转换为数据视图进行展示；获取所述数据视图的反馈数据，在所述反馈数据的数量累计到预设数据量或者当前时间位于预设时间范围内后，对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代；获取迭代后的所述模式匹配预训练模型和/或所述深度语义表征预训练模型的F1分数和精准率；在所述F1分数和精准率落入预设范围后，停止对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代。5.一种语义结构解析装置，其特征在于，包括：获取单元，其用于获取元数据；判断单元，其用于判断所述元数据的语义结构是否完整，所述语义结构至少包括列主题和表主题；补充单元，其用于...

【专利技术属性】
技术研发人员：龚小龙，郑聪，麻志毅，
申请(专利权)人：浙江省北大信息技术高等研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人