基于实体消歧的数据库中的关键数据元素识别方法及系统技术方案

技术编号:30371094 阅读:35 留言:0更新日期:2021-10-16 17:51
本发明专利技术公开了一种基于实体消歧的数据库中的关键数据元素识别方法及系统,其包括:结合DeepType模型、DeepMatch模型以及DeepCosine模型对数据库中的数据进行实体类型的预测以及实体的消歧,其中,所述数据库中包括多个数据表;基于Apriori算法以及FP

【技术实现步骤摘要】
基于实体消歧的数据库中的关键数据元素识别方法及系统


[0001]本专利技术是关于自然语言处理
,特别是关于一种基于实体消歧的数据库中的关键数据元素识别方法及系统。

技术介绍

[0002]随着国家电网的快速发展,电网业务种类和数量急剧增长,各个公司开发了很多的业务系统,电网中数据库中存储了各个业务系统的大量数据,而业务系统的数据具有很强的关联性和重复性,但是很多系统中相同的数据对象却表现为不同的实体名称,例如电网数据字段可能存在“同义不同词”、“一词多义”、错别字等现象,由此,大大增加了电网行业数据管理的难度,无法高效地从各类系统的数据中获取关键数据元素。
[0003]公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

技术实现思路

[0004]本专利技术的目的在于提供一种基于实体消歧的数据库中的关键数据元素识别方法及系统,其便于及时获取电网中的关键数据元素,可以提高电网行业数据管理效率。
[0005]为实现上述目的,本专利技术提供了一种基于实体消歧的数据库中的关键数据元素识别方法,其包括:结合DeepType模型、DeepMatch模型以及DeepCosine模型对数据库中的数据进行实体类型的预测以及实体的消歧,其中,所述数据库中包括多个数据表;基于Apriori算法以及FP

growth算法对消歧后的数据库中的数据进行关联分析从而构建数据库表关联图;基于所述数据库表关联图识别出关键数据元素。
[0006]在本专利技术的一实施方式中,所述结合DeepType模型、DeepMatch模型以及DeepCosine模型对数据库中的数据进行实体类型的预测以及实体的消歧包括:基于DeepType模型预测实体和候选实体的交叉熵损失函数;基于DeepMatch模型预测实体和候选实体的匹配程度;基于DeepCosine模型预测实体和候选实体的向量的余弦距离;根据所述交互熵损失函数、所述匹配程度、所述向量的余弦距离、所述DeepMatch模型中的数值特征对实体进行排序;基于lightgbm树模型分别输出所述DeepType模型、所述DeepMatch模型、所述DeepMatch模型的二分类预测结果。
[0007]在本专利技术的一实施方式中,所述基于Apriori算法以及FP

growth算法对消歧后的数据库中的数据进行关联分析从而构建数据库表关联图包括:基于所述Apriori算法对消歧后的数据库中的数据进行频繁项集的搜索;基于所述FP

growth算法将每个数据表中所包含的频繁项集按照所述频繁项集的支持度降序压缩存储至FP

tree中;从所述频繁项集中挖掘出大于最小置信度阈值的关联规则;根据所述关联规则构建数据库表关联图。
[0008]在本专利技术的一实施方式中,所述关键数据元素识别方法还包括:基于候选实体类型、上下文的关联信息以及候选实体向量对所述关键数据元素进行解析和消歧。
[0009]基于同样的专利技术构思,本专利技术还提供了一种基于实体消歧的数据库中的关键数据
元素识别系统,其包括:实体消歧模块、关联分析模块、关键数据元素识别模块。实体消歧模块用于结合DeepType模型、DeepMatch模型以及DeepCosine模型对数据库中的数据进行实体类型的预测以及实体的消歧,其中,所述数据库中包括多个数据表。关联分析模块与所述实体消歧模块相耦合,用于基于Apriori算法以及FP

growth算法对消歧后的数据库中的数据进行关联分析从而构建数据库表关联图。关键数据元素识别模块与所述关联分析模块相耦合,用于基于所述数据库表关联图识别出关键数据元素。
[0010]在本专利技术的一实施方式中,所述实体消歧模块用于:基于DeepType模型预测实体和候选实体的交叉熵损失函数;基于DeepMatch模型预测实体和候选实体的匹配程度;基于DeepCosine模型预测实体和候选实体的向量的余弦距离;还用于根据所述交互熵损失函数、所述匹配程度、所述向量的余弦距离、所述DeepMatch模型中的数值特征对实体进行排序;基于lightgbm树模型分别输出所述DeepType模型、所述DeepMatch模型、所述DeepMatch模型的二分类预测结果。
[0011]在本专利技术的一实施方式中,所述关联分析模块用于:基于所述Apriori算法对消歧后的数据库中的数据进行频繁项集的搜索;基于所述FP

growth算法将每个数据表中所包含的频繁项集按照所述频繁项集的支持度降序压缩存储至FP

tree中;从所述频繁项集中挖掘出大于最小置信度阈值的关联规则;根据所述关联规则构建数据库表关联图。
[0012]在本专利技术的一实施方式中,所述关键数据元素识别系统还包括:关键数据元素消歧模块,其与所述关键数据元素识别模块相耦合,用于基于候选实体类型、上下文的关联信息以及候选实体向量对所述关键数据元素进行解析和消歧。
[0013]基于同样的专利技术构思,本专利技术还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述任一实施方式所述的关键数据元素识别方法的步骤。
[0014]基于同样的专利技术构思,本专利技术还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现上述任一实施方式所述的关键数据元素识别方法的步骤。
[0015]与现有技术相比,根据本专利技术的基于实体消歧的数据库中的关键数据元素识别方法及系统,充分利用了实体的上下文信息和电网行业信息系统的各类元数据信息,构建了DeepType、DeepMatch、DeepCosine三种模型来从三个不同方面进行实体的消歧,对消歧后的数据库中的数据进行关联分析从而构建数据库表关联图,并获取关键数据元素;之后根据候选实体类型、上下文相关和候选实体向量这三个方面的信息对各项关键数据元素进行解析和消歧,如此可以实现全电网一张数据库视图,大大提高了电网数据质量管控的效率。
附图说明
[0016]图1是根据本专利技术一实施方式的基于实体消歧的数据库中的关键数据元素识别方法的步骤组成;
[0017]图2是根据本专利技术一实施方式的基于DeepType模型的结构示意图;
[0018]图3是根据本专利技术一实施方式的基于DeepMatch模型的结构示意图;
[0019]图4是根据本专利技术一实施方式的基于DeepCosine模型的结构示意图;
[0020]图5是根据本专利技术一实施方式构建的数据库表关联图;
[0021]图6是根据本专利技术一实施方式的基于实体消歧的数据库中的关键数据元素识别方法的步骤组成;
[0022]图7是根据本专利技术一实施方式的基于实体消歧的数据库中的关键数据元素识别系统的模块组成。
具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于实体消歧的数据库中的关键数据元素识别方法,其特征在于,包括:结合DeepType模型、DeepMatch模型以及DeepCosine模型对数据库中的数据进行实体类型的预测以及实体的消歧,其中,所述数据库中包括多个数据表;基于Apriori算法以及FP

growth算法对消歧后的数据库中的数据进行关联分析从而构建数据库表关联图;基于所述数据库表关联图识别出关键数据元素。2.如权利要求1所述的基于实体消歧的数据库中的关键数据元素识别方法,其特征在于,所述结合DeepType模型、DeepMatch模型以及DeepCosine模型对数据库中的数据进行实体类型的预测以及实体的消歧包括:基于DeepType模型预测实体和候选实体的交叉熵损失函数;基于DeepMatch模型预测实体和候选实体的匹配程度;基于DeepCosine模型预测实体和候选实体的向量的余弦距离;根据所述交互熵损失函数、所述匹配程度、所述向量的余弦距离、所述DeepMatch模型中的数值特征对实体进行排序;基于lightgbm树模型分别输出所述DeepType模型、所述DeepMatch模型、所述DeepMatch模型的二分类预测结果。3.如权利要求1所述的基于实体消歧的数据库中的关键数据元素识别方法,其特征在于,所述基于Apriori算法以及FP

growth算法对消歧后的数据库中的数据进行关联分析从而构建数据库表关联图包括:基于所述Apriori算法对消歧后的数据库中的数据进行频繁项集的搜索;基于所述FP

growth算法将每个数据表中所包含的频繁项集按照所述频繁项集的支持度降序压缩存储至FP

tree中;从所述频繁项集中挖掘出大于最小置信度阈值的关联规则;根据所述关联规则构建数据库表关联图。4.如权利要求1所述的基于实体消歧的数据库中的关键数据元素识别方法,其特征在于,所述关键数据元素识别方法还包括:基于候选实体类型、上下文的关联信息以及候选实体向量对所述关键数据元素进行解析和消歧。5.一种基于实体消歧的数据库中的关键数据元素识别系统,其特征在于,包括:实体消歧模块,用于结合DeepType模型、DeepMatch模型以及Deep...

【专利技术属性】
技术研发人员:周春雷贾崟梁云丹季良王婷张璧君高珊高聪董新微黄怡
申请(专利权)人:国家电网有限公司大数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1