一种烟草多源异构数据的集成分析方法及系统技术方案

技术编号:38406392 阅读:13 留言:0更新日期:2023-08-07 11:15
本发明专利技术公开了一种烟草多源异构数据的集成分析方法及系统,属于数据处理技术领域,包括步骤S1:设定目标数据结构和匹配词典库;步骤S2:抽取各个基础数据库中的源数据,将源数据划分为第一结构数据和第二结构数据,分别从第一结构数据和第二结构数据中抽取目标信息,基于匹配词典库将目标信息映射为目标数据结构,对目标数据结构进行合并,获得标准集成数据;步骤S3:获取标准集成数据所包括的销售时间段;步骤S4:基于销量预测模型获取销售时间段的预测销量数据,将其与标准集成数据中对应的数据对比,获取标准集成数据中的异常数据。本发明专利技术不仅实现了整合相同类型但不同数据格式的原始数据,而且还能将其映射为预设的标准数据结构。数据结构。数据结构。

【技术实现步骤摘要】
一种烟草多源异构数据的集成分析方法及系统


[0001]本专利技术属于数据处理
,具体涉及一种烟草多源异构数据的集成分析方法及系统。

技术介绍

[0002]由于烟草销售性质的特殊性,具备烟草销售资质的企业均开发了相应的销售管理系统,以对下辖各个销售门店的烟草销售数据进行管理,从而分析各个门店的销售情况是否正常;为了保证销售管理系统的流畅性,系统每隔一段时间就需要对其进行更新,亦或者引入新的销售系统,然而,不同门店的销售系统并不一定同时升级或更换,在系统的交接期,不同的销售数据会分布在不同的系统中,并以不同的数据格式进行存储,这就会出现,由于数据格式的差异致使数据分析困难的情况发生。
[0003]为了解决上述问题,现有技术中提出了如下方案,如中国专利申请“CN113342880A”公开了一种烟草数据中元数据的获取方法及装置,该方法首先提取数据库中的原始数据,并获取所述原始数据对应的业务类型,根据业务类型对原始数据进行分类,得到各个类型的业务数据;之后获取业务数据的数据属性,将各个类型的业务数据的数据属性之间进行对比,根据对比结果确定数据属性的标准要求;最后根据标准要求构建对应的数据标准化模型,并根据数据标准化模型对业务数据进行标准化;又例如中国专利申请“CN114429305A”公开了一种烟草数据标准化方法,该方法首先从烟草行业的其他系统中获取不同烟草数据种类的烟草数据,然后对各种类的烟草数据进行处理,将对应的烟草数据中各个烟草子数据的格式进行确定,并将相同格式的烟草子数据进行整合,生成各种类对应的清洗模板;最后根据烟草数据的种类,调用该种类对应的清洗模板,从而实现对烟草数据内烟草子数据的清洗处理,生成对应的烟草标准数据。
[0004]然而,当相同类型的原始数据以不同数据格式进行存储时,使用上述第一种方法并不能对其进行处理,而第二种方法生成的模板是系统根据各个数据格式所占比值确定的,转换后的数据并不是人为设置的标准化数据。

技术实现思路

[0005]为解决上述问题,本专利技术提供了一种烟草多源异构数据的集成分析方法及系统,本专利技术既能整合相同内容但不同数据格式的原始数据,又能将其映射为标准化数据。
[0006]为了达到上述的专利技术目的,本专利技术提出一种烟草多源异构数据的集成分析方法,包括:
[0007]步骤S1:设定目标数据结构,所述目标数据结构为结构化数据,所述目标数据结构包括标准名称,所述标准名称包括领域名称、实体名称和属性名称,基于所述标准名称生成匹配词典库,所述匹配词典库包括与所述标准名称词义相近的多个扩展同义词;
[0008]步骤S2:确定需要提取的基础数据库,抽取各个所述基础数据库中的源数据,所述源数据为半结构化表格数据,获取所述源数据各个单元格包含的文本信息,若各个文本信
息在所述源数据内仅出现一次,则将所述源数据划分为第一结构数据,否则将所述源数据划分为第二结构数据,分别从所述第一结构数据和所述第二结构数据中抽取目标信息,基于所述匹配词典库将所述目标信息映射为所述目标数据结构,对所述目标数据结构进行合并,获得标准集成数据;
[0009]步骤S3:抽取所述标准集成数据中目标实体名称,获取所述目标实体名称关联的属性名称,所述目标实体名称关联的属性名称包括销售数量、销售日期和销售价格,从所述销售日期中获取所述标准集成数据所包括的销售时间段;
[0010]步骤S4:抽取历史销售数据,建立销量预测模型,基于所述销量预测模型获取所述销售时间段的预测销售数量、预测销售日期和预测销售价格,将其与所述标准集成数据中对应的数据对比,获取所述标准集成数据中的异常数据。
[0011]进一步的,所述步骤S2中,从所述第一结构数据和所述第二结构数据抽取所述目标信息包括以下步骤:
[0012]步骤S21:若所述源数据为所述第一结构数据,则获取所述源数据的外框线和内框线,其中所述外框线为构成所述源数据表格轮廓的框线,所述内框线位于所述源数据的表格轮廓中,所述内框线的两端分别与所述外框线连接,将横向延伸的所述内框线自上向下依次编号为a1,a2,

,a
n
,将竖向延伸的所述内框线自左向右依次编号为b1,b2,

,b
n
,定位所述内框线a1与所述外框线之间、以及所述内框线b1与所述外框线之间的目标单元格,将所述目标单元格内填充的文本信息定义为所述目标信息;
[0013]步骤S22:若所述源数据为所述第二结构数据,则获取所述第二结构数据中多次出现的文本信息,将其定义为所述目标信息
[0014]进一步的,所述步骤S3中,将所述目标信息映射为所述目标数据结构包括以下步骤:
[0015]步骤S31:将各个所述目标信息与各个所述标准名称、以及所述扩展同义词进行对比,获取对应的相似度值,设定第一阈值,若所述目标信息与所述标准名称的相似度值大于所述第一阈值,则将所述目标信息映射为所述标准名称,若所述目标信息与所述扩展同义词的相似度值大于所述第一阈值,则获取所述扩展同义词对应的所述标准名称,将所述目标信息映射为所述标准名称;
[0016]步骤S32:定义所述源数据中与属性名称对应的文本信息为实际属性,基于表格的对应关系,将所述源数据中领域名称、实体名称、属性名称和所述实际属性相互关联,若存在同一个实际属性对应多个实体名称,则将实际属性分别与实体名称关联,将关联后的领域名称、实体名称和属性名称映射为所述目标数据结构。
[0017]进一步的,所述步骤S31中,在所述源数据映射完成后,基于以下步骤生成新领域名称:
[0018]获取领域名称包括的实体名称,以及每个实体名称包括的属性名称,若存在实体名称对应相同的属性名称,则获取各个实体名称共同包含的词语及对应的属性名称,基于所述词语和属性名称生成新领域名称,若各个实体名称中未包含相同的所述词语,则生成空白占位符作为新领域名称。
[0019]进一步的,所述目标数据结构生成后,基于以下步骤对领域名称进行合并:
[0020]分别抽取第一领域和第二领域,所述第一领域和所述第二领域分别为不同的领域
名称,获取第一实体集和第二实体集,所述第一实体集和所述第二实体集分别为所述第一领域和所述第二领域包括实体名称集合,所述第一实体集和所述第二实体集分别包括第一数量和第二数量的实体名称;
[0021]对比所述第一实体集和所述第二实体集,获取其中包括的相同实体名称,以及对应的第三数量,基于第一公式计算第四数量,所述第一公式为:α4=MAX[α1,α2]‑
α3,其中,所述α1,α2,α3,α4分别为所述第一数量、所述第二数量、所述第三数量和所述第四数量,MAX[α1,α2]为返回α1和α2中数值较大的值;
[0022]设定第二阈值,基于第二公式计算所述第一领域和所述第二领域的排斥度β,所述第二公式为:其中,ω为预设的调整系数,MIN[α1,α2]为返回α1和α2中数值较小的值,当所述排斥度小于所述第二阈值时,将所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种烟草多源异构数据的集成分析方法,其特征在于,包括:步骤S1:设定目标数据结构,所述目标数据结构为结构化数据,所述目标数据结构包括标准名称,所述标准名称包括领域名称、实体名称和属性名称,基于所述标准名称生成匹配词典库,所述匹配词典库包括与所述标准名称词义相近的多个扩展同义词;步骤S2:确定需要提取的基础数据库,抽取各个所述基础数据库中的源数据,所述源数据为半结构化表格数据,获取所述源数据各个单元格包含的文本信息,若各个文本信息在所述源数据内仅出现一次,则将所述源数据划分为第一结构数据,否则将所述源数据划分为第二结构数据,分别从所述第一结构数据和所述第二结构数据中抽取目标信息,基于所述匹配词典库将所述目标信息映射为所述目标数据结构,对所述目标数据结构进行合并,获得标准集成数据;步骤S3:抽取所述标准集成数据中目标实体名称,获取所述目标实体名称关联的属性名称,所述目标实体名称关联的属性名称包括销售数量、销售日期和销售价格,从所述销售日期中获取所述标准集成数据所包括的销售时间段;步骤S4:抽取历史销售数据,建立销量预测模型,基于所述销量预测模型获取所述销售时间段的预测销售数量、预测销售日期和预测销售价格,将其与所述标准集成数据中对应的数据对比,获取所述标准集成数据中的异常数据。2.根据权利要求1所述的一种烟草多源异构数据的集成分析方法,其特征在于,所述步骤S2中,从所述第一结构数据和所述第二结构数据抽取所述目标信息包括以下步骤:步骤S21:若所述源数据为所述第一结构数据,则获取所述源数据的外框线和内框线,其中所述外框线为构成所述源数据表格轮廓的框线,所述内框线位于所述源数据的表格轮廓中,所述内框线的两端分别与所述外框线连接,将横向延伸的所述内框线自上向下依次编号为a1,a2,

,a
n
,将竖向延伸的所述内框线自左向右依次编号为b1,b2,

,b
n
,定位所述内框线a1与所述外框线之间、以及所述内框线b1与所述外框线之间的目标单元格,将所述目标单元格内填充的文本信息定义为所述目标信息;步骤S22:若所述源数据为所述第二结构数据,则获取所述第二结构数据中多次出现的文本信息,将其定义为所述目标信息。3.根据权利要求1所述的一种烟草多源异构数据的集成分析方法,其特征在于,所述步骤S3中,将所述目标信息映射为所述目标数据结构包括以下步骤:步骤S31:将各个所述目标信息与各个所述标准名称、以及所述扩展同义词进行对比,获取对应的相似度值,设定第一阈值,若所述目标信息与所述标准名称的相似度值大于所述第一阈值,则将所述目标信息映射为所述标准名称,若所述目标信息与所述扩展同义词的相似度值大于所述第一阈值,则获取所述扩展同义词对应的所述标准名称,将所述目标信息映射为所述标准名称;步骤S32:定义所述源数据中与属性名称对应的文本信息为实际属性,基于表格的对应关系,将所述源数据中领域名称、实体名称、属性名称和所述实际属性相互关联,若存在同一个实际属性对应多个实体名称,则将实际属性分别与实体名称关联,将关联后的领域名称、实体名称和属性名称映射为所述目标数据结构。4.根据权利要求3所述的一种烟草多源异构数据的集成分析方法,其特征在于,所述步骤S31中...

【专利技术属性】
技术研发人员:桂洪洋桑万里雷建岭
申请(专利权)人:河南铭视科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1