一种语义结构解析方法、装置、设备及虚拟化系统、介质制造方法及图纸

技术编号:31679056 阅读:42 留言:0更新日期:2022-01-01 10:24
本发明专利技术提供了一种语义结构解析方法、装置、设备及虚拟化系统、介质,所述方法包括:获取元数据;判断所述元数据的语义结构是否完整,所述语义结构至少包括列主题和表主题;若所述语义结构不完整,则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型,得到预测列主题,和/或,将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型,得到预测表主题,将所述语义结构补充完整;将语义结构完整的所述元数据转换为标准语义结构数据。这样,通过预训练模型对数据库资源中缺乏的部分语义结构进行预测,从而得到完整的语义结构,解决软件资源缺乏语义结构的问题,进而完成数据库资源的整合。进而完成数据库资源的整合。进而完成数据库资源的整合。

【技术实现步骤摘要】
一种语义结构解析方法、装置、设备及虚拟化系统、介质


[0001]本专利技术涉及数据库
,具体而言,涉及一种语义结构解析方法、装置、设备及虚拟化系统、介质。

技术介绍

[0002]在这个“信息爆炸”的时代,随着云计算、物联网、移动计算、智慧城市、人工智能等领域日新月异的发展,迫使大数据技术必须面对新的现实:数据规模越来越大,数据复杂度越来越高,数据多样性越来越丰富,数据安全要求越来越严格。传统的数据集成技术正面临着严峻的挑战:应用各自为政,数仓等软件资源互不相通,多源异构的软件资源形式及数据存放的格式和数据安全的管理都是烟囱式模型,形成了数据孤岛,无法跨业务集成和使用。在这种情况下,软件资源中的信息往往通过ETL来实现,也造成了业务系统集成工作量大等多种困境。
[0003]其中,阻碍数据库资源整合的最主要困难是软件资源普遍缺乏语义结构的问题。但针对该问题,目前还没有研究方提供可实行的解决方案。

技术实现思路

[0004]本专利技术解决的问题是现有软件资源普遍缺乏语义结构阻碍数据库资源整合。
[0005]为解决上述问题,本专利技术首先提供一种语义结构解析方法,包括:获取元数据;判断所述元数据的语义结构是否完整,所述语义结构至少包括列主题和表主题;若所述语义结构不完整,则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型,得到预测列主题,和/或,将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型,得到预测表主题,将所述语义结构补充完整;将语义结构完整的所述元数据转换为标准语义结构数据。
[0006]这样,通过预训练模型对数据库资源中缺乏的部分语义结构进行预测,从而得到完整的语义结构,解决软件资源缺乏语义结构的问题,进而完成数据库资源的整合。
[0007]优选地,所述模式匹配预训练模型的训练过程为:获取已标注的样本数据;提取所述样本数据的数据特征、文本语义特征和统计特征;将所述样本数据的数据特征、文本语义特征和统计特征重组为所述样本数据的特征向量;将所述样本数据的特征向量和标注作为输入参数,对预设的神经网络模型进行训练,得到模式匹配预训练模型。
[0008]优选地,所述深度语义表征预训练模型的训练过程为:获取已标注的样本数据;将所述样本数据按照预设规则进行分块,获取多个样本数据集,所述样本数据集
中的每个样本数据的标注相同;提取所述样本数据的数据特征、文本语义特征和统计特征;将样本数据集中所有样本数据的数据特征、文本语义特征和统计特征重组为所述样本数据集的特征向量;将所述样本数据集的特征向量和标注作为输入参数,对预设的神经网络模型进行训练,得到深度语义表征预训练模型。
[0009]优选地,所述方法还包括:对所述标准语义结构数据的表主题进行分类,建立分类映射表;将所述标准语义结构数据和所述分类映射表转换为数据视图进行展示;获取所述数据视图的反馈数据,在所述反馈数据的数量累计到预设数据量或者当前时间位于预设时间范围内后,对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代;获取迭代后的所述模式匹配预训练模型和/或所述深度语义表征预训练模型的F1分数和精准率;在所述F1分数和精准率落入预设范围后,停止对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代。
[0010]其次,提供一种语义结构解析装置,其包括:获取单元,其用于获取元数据;判断单元,其用于判断所述元数据的语义结构是否完整,所述语义结构至少包括列主题和表主题;补充单元,其用于若所述语义结构不完整,则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型,得到预测列主题,和/或,将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型,得到预测表主题,将所述语义结构补充完整;转换单元,其用于将语义结构完整的所述元数据转换为标准语义结构数据。
[0011]优选地,还包括:映射单元,其用于对所述标准语义结构数据的表主题进行分类,建立分类映射表;展示单元,其用于将所述标准语义结构数据和所述分类映射表转换为数据视图进行展示;迭代单元,其用于获取所述数据视图的反馈数据,在所述反馈数据的数量累计到预设数据量或者当前时间位于预设时间范围内后,对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代;统计单元,其用于获取迭代后的所述模式匹配预训练模型和/或所述深度语义表征预训练模型的F1分数和精准率;在所述F1分数和精准率落入预设范围后,停止对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代。
[0012]再次,提供一种电子设备,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如前述所述的方法。
[0013]另次,提供一种虚拟化系统,其包括:连接器层,其用于与不同数据库建立底层物理连接;探测感知层,其内设置有前述所述的语义结构解析装置,用于获取所述数据库的
元数据并转化为标准语义结构数据;公共基础层,其用于接收外部指令,对所述标准语义结构数据进行预设操作;API接口层,其用于将预设操作后的所述标准语义结构数据转化为外接接口的对应格式进行输出。
[0014]优选地,所述探测感知层还包括:元数据采集装置,其用于实时监测并获取连接的数据库中的元数据;数据格式转化装置,其用于将所述语义结构解析装置转换的所述标准语义结构数据或元数据采集装置获取的所述元数据中的异构数据转换为同构数据。
[0015]最后,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器读取并运行时,实现如前述所述的方法。
[0016]这样,通过预训练模型对数据库资源中缺乏的部分语义结构进行预测,从而得到完整的语义结构,解决软件资源缺乏语义结构的问题,进而完成数据库资源的整合。
[0017]这样,只需业务人员少量标注或通过数据资源视图修正标签,资源虚拟化系统中的数据库语义结构解析引擎会自动在线学习数据库及表格结构特征并预测出表格所属业务主题,最终形成可查询的可视化数据资源视图,进行前端展示。
附图说明
[0018]图1为根据本专利技术一实施例的语义结构解析方法的流程图;图2为根据本专利技术一实施例的语义结构解析方法训练过程的流程图;图3为根据本专利技术另一实施例的语义结构解析方法训练过程的流程图;图4为根据本专利技术另一实施例的语义结构解析方法的流程图;图5为根据本专利技术一实施例的语义结构解析装置的结构框图;图6为根据本专利技术另一实施例的语义结构解析装置的结构框图;图7为根据本专利技术一实施例的虚拟化系统的结构框图;图8为根据本专利技术实施例的探测感知层的结构框图;图9为根据本专利技术实施例的电子设备的结构框图。
具体实施方式
[0019]在这个“信息爆炸”的时代,随着云计算、物联网、移动计算、智慧城市、人工智能等领域日新月异的发展,人类社会已经步入了“信息高速路”的行驶轨道,数据量增长迅速,各类应用对大数据处理的需求也发生着变化。与此同时,传统的数据仓库不再一统江湖,而以流、批处理、A本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义结构解析方法,其特征在于,包括:获取元数据;判断所述元数据的语义结构是否完整,所述语义结构至少包括列主题和表主题;若所述语义结构不完整,则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型,得到预测列主题,和/或,将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型,得到预测表主题,将所述语义结构补充完整;将语义结构完整的所述元数据转换为标准语义结构数据。2.如权利要求1所述的方法,其特征在于,所述模式匹配预训练模型的训练过程为:获取已标注的样本数据;提取所述样本数据的数据特征、文本语义特征和统计特征;将所述样本数据的数据特征、文本语义特征和统计特征重组为所述样本数据的特征向量;将所述样本数据的特征向量和标注作为输入参数,对预设的神经网络模型进行训练,得到模式匹配预训练模型。3.如权利要求1所述的方法,其特征在于,所述深度语义表征预训练模型的训练过程为:获取已标注的样本数据;将所述样本数据按照预设规则进行分块,获取多个样本数据集,所述样本数据集中的每个样本数据的标注相同;提取所述样本数据的数据特征、文本语义特征和统计特征;将样本数据集中所有样本数据的数据特征、文本语义特征和统计特征重组为所述样本数据集的特征向量;将所述样本数据集的特征向量和标注作为输入参数,对预设的神经网络模型进行训练,得到深度语义表征预训练模型。4.如权利要求1所述的方法,其特征在于,所述方法还包括:对所述标准语义结构数据的表主题进行分类,建立分类映射表;将所述标准语义结构数据和所述分类映射表转换为数据视图进行展示;获取所述数据视图的反馈数据,在所述反馈数据的数量累计到预设数据量或者当前时间位于预设时间范围内后,对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代;获取迭代后的所述模式匹配预训练模型和/或所述深度语义表征预训练模型的F1分数和精准率;在所述F1分数和精准率落入预设范围后,停止对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代。5.一种语义结构解析装置,其特征在于,包括:获取单元,其用于获取元数据;判断单元,其用于判断所述元数据的语义结构是否完整,所述语义结构至少包括列主题和表主题;补充单元,其用于...

【专利技术属性】
技术研发人员:龚小龙郑聪麻志毅
申请(专利权)人:浙江省北大信息技术高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1