【技术实现步骤摘要】
一种烟草多源异构数据的集成分析方法及系统
[0001]本专利技术属于数据处理
,具体涉及一种烟草多源异构数据的集成分析方法及系统。
技术介绍
[0002]由于烟草销售性质的特殊性,具备烟草销售资质的企业均开发了相应的销售管理系统,以对下辖各个销售门店的烟草销售数据进行管理,从而分析各个门店的销售情况是否正常;为了保证销售管理系统的流畅性,系统每隔一段时间就需要对其进行更新,亦或者引入新的销售系统,然而,不同门店的销售系统并不一定同时升级或更换,在系统的交接期,不同的销售数据会分布在不同的系统中,并以不同的数据格式进行存储,这就会出现,由于数据格式的差异致使数据分析困难的情况发生。
[0003]为了解决上述问题,现有技术中提出了如下方案,如中国专利申请“CN113342880A”公开了一种烟草数据中元数据的获取方法及装置,该方法首先提取数据库中的原始数据,并获取所述原始数据对应的业务类型,根据业务类型对原始数据进行分类,得到各个类型的业务数据;之后获取业务数据的数据属性,将各个类型的业务数据的数据属性之间进行对比,根据对比结果确定数据属性的标准要求;最后根据标准要求构建对应的数据标准化模型,并根据数据标准化模型对业务数据进行标准化;又例如中国专利申请“CN114429305A”公开了一种烟草数据标准化方法,该方法首先从烟草行业的其他系统中获取不同烟草数据种类的烟草数据,然后对各种类的烟草数据进行处理,将对应的烟草数据中各个烟草子数据的格式进行确定,并将相同格式的烟草子数据进行整合,生成各种类对应的清洗模板 ...
【技术保护点】
【技术特征摘要】
1.一种烟草多源异构数据的集成分析方法,其特征在于,包括:步骤S1:设定目标数据结构,所述目标数据结构为结构化数据,所述目标数据结构包括标准名称,所述标准名称包括领域名称、实体名称和属性名称,基于所述标准名称生成匹配词典库,所述匹配词典库包括与所述标准名称词义相近的多个扩展同义词;步骤S2:确定需要提取的基础数据库,抽取各个所述基础数据库中的源数据,所述源数据为半结构化表格数据,获取所述源数据各个单元格包含的文本信息,若各个文本信息在所述源数据内仅出现一次,则将所述源数据划分为第一结构数据,否则将所述源数据划分为第二结构数据,分别从所述第一结构数据和所述第二结构数据中抽取目标信息,基于所述匹配词典库将所述目标信息映射为所述目标数据结构,对所述目标数据结构进行合并,获得标准集成数据;步骤S3:抽取所述标准集成数据中目标实体名称,获取所述目标实体名称关联的属性名称,所述目标实体名称关联的属性名称包括销售数量、销售日期和销售价格,从所述销售日期中获取所述标准集成数据所包括的销售时间段;步骤S4:抽取历史销售数据,建立销量预测模型,基于所述销量预测模型获取所述销售时间段的预测销售数量、预测销售日期和预测销售价格,将其与所述标准集成数据中对应的数据对比,获取所述标准集成数据中的异常数据。2.根据权利要求1所述的一种烟草多源异构数据的集成分析方法,其特征在于,所述步骤S2中,从所述第一结构数据和所述第二结构数据抽取所述目标信息包括以下步骤:步骤S21:若所述源数据为所述第一结构数据,则获取所述源数据的外框线和内框线,其中所述外框线为构成所述源数据表格轮廓的框线,所述内框线位于所述源数据的表格轮廓中,所述内框线的两端分别与所述外框线连接,将横向延伸的所述内框线自上向下依次编号为a1,a2,
…
,a
n
,将竖向延伸的所述内框线自左向右依次编号为b1,b2,
…
,b
n
,定位所述内框线a1与所述外框线之间、以及所述内框线b1与所述外框线之间的目标单元格,将所述目标单元格内填充的文本信息定义为所述目标信息;步骤S22:若所述源数据为所述第二结构数据,则获取所述第二结构数据中多次出现的文本信息,将其定义为所述目标信息。3.根据权利要求1所述的一种烟草多源异构数据的集成分析方法,其特征在于,所述步骤S3中,将所述目标信息映射为所述目标数据结构包括以下步骤:步骤S31:将各个所述目标信息与各个所述标准名称、以及所述扩展同义词进行对比,获取对应的相似度值,设定第一阈值,若所述目标信息与所述标准名称的相似度值大于所述第一阈值,则将所述目标信息映射为所述标准名称,若所述目标信息与所述扩展同义词的相似度值大于所述第一阈值,则获取所述扩展同义词对应的所述标准名称,将所述目标信息映射为所述标准名称;步骤S32:定义所述源数据中与属性名称对应的文本信息为实际属性,基于表格的对应关系,将所述源数据中领域名称、实体名称、属性名称和所述实际属性相互关联,若存在同一个实际属性对应多个实体名称,则将实际属性分别与实体名称关联,将关联后的领域名称、实体名称和属性名称映射为所述目标数据结构。4.根据权利要求3所述的一种烟草多源异构数据的集成分析方法,其特征在于,所述步骤S31中...
【专利技术属性】
技术研发人员:桂洪洋,桑万里,雷建岭,
申请(专利权)人:河南铭视科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。