一种基于专利数据的数仓建模方法、系统、设备及介质技术方案

技术编号:39405478 阅读:8 留言:0更新日期:2023-11-19 15:57
一种基于专利数据的数仓建模方法、系统、设备及介质,涉及数据仓库建模领域。在该方法中,包括以下步骤:获取业务需求信息;获取专利数据来源表,专利数据来源表包括有多张;获取粒度声明信息;对专利数据来源表进行处理,将专利数据来源表中包含的多值字段转化为单一字段,得到与专利数据来源表对应的多张专利数据明细表;根据业务需求信息确定各专利数据明细表之间的数据逻辑关联;根据全部专利数据明细表、粒度声明信息以及各专利数据明细表之间的数据逻辑关联构建数据仓库模型。通过采用本申请提供的技术方案,将专利数据来源表转化为只包含单一维度数据的专利数据明细表,保障了专利数据口径的统一,较好的完成了专利数据的数据仓库建模。数据仓库建模。数据仓库建模。

【技术实现步骤摘要】
一种基于专利数据的数仓建模方法、系统、设备及介质


[0001]本申请涉及数据仓库建模领域,尤其是涉及一种基于专利数据的数仓建模方法、系统、设备及介质。

技术介绍

[0002]随着互联网技术的迅速发展和人工智能应用场景不断扩大,专利资源的数量呈现指数级的增长。如何充分挖掘和利用这些专利数据,是当今研究者们面临的重要课题。
[0003]传统的关系数据库存储结构已经无法满足大数据时代的需求,因此提出了基于数仓的解决方案。然而,对于专利数据而言,一张专利数据来源表中的多个字段可能处于不同的二级数据域,这些字段都可用于后期分析且粒度不同。因此,若复用现有的数据仓库建模方法对专利数据进行数据仓库建模,会导致构建的数据仓库存在数据关系不明确、血缘混乱、口径不一致等问题产生,现有的数据仓库建模方法无法较好的对专利数据仓库进行建模。

技术实现思路

[0004]为了能够较好的对专利数据仓库进行建模,本申请提供一种基于专利数据的数仓建模方法、系统、设备及介质。
[0005]第一方面,本申请提供了一种基于专利数据的数仓建模方法,所述方法包括以下步骤:获取业务需求信息;获取专利数据来源表,所述专利数据来源表包括有多张;获取粒度声明信息;对所述专利数据来源表进行处理,将所述专利数据来源表中包含的多值字段转化为单一字段,得到与所述专利数据来源表对应的多张专利数据明细表;根据所述业务需求信息确定各所述专利数据明细表之间的数据逻辑关联;根据全部所述专利数据明细表、所述获取粒度声明信息以及各所述专利数据明细表之间的所述数据逻辑关联构建数据仓库模型。
[0006]通过采用上述技术方案,专利数据来源表中包含有大量的多值字段,当基于专利数据来源表进行数据仓库建模时,将专利数据来源表转化为只包含单一维度数据的专利数据明细表,从而对专利数据进行了二次数据域的划分,保障了专利数据口径的统一,较好的完成了专利数据的数据仓库建模;同时梳理了各个专利数据明细表之间的数据逻辑关系,保障数据仓库模型中各专利数据的血缘清晰。
[0007]可选的,在对所述专利数据来源表进行处理中,具体包括:识别所述专利数据来源表中的所述多值字段;对包含有所述多值字段的所述专利数据来源表进行拆分,得到与所述多值字段对应的多张第一专利数据明细表;
将不包含所述多值字段的所述专利数据来源表直接转化为第二专利数据明细表,完成全部所述专利数据来源表的处理。
[0008]通过采用上述技术方案,专利数据来源表中若包含有多值字段,则会导致建立的数据仓库模型出现数据冗余、查询性能下降、数据完整性较差、表设计复杂等问题,对第一专利数据来源表进行拆分,得到对应的第一专利数据明细表,使得最终获取到的专利数据明细表中只包含有单一字段,在后续建模时避免了多值字段带来的各类问题。
[0009]可选的,在对所述专利数据来源表进行处理前,还包括:根据所述业务需求信息确定多个数据主题域,并建立各所述数据主题域之间的业务逻辑关联;将各所述专利数据来源表划分至对应的数据主题域。
[0010]通过采用上述技术方案,将专利数据按照数据主题域的划分进行整理,有利于提高专利数据的质量和准确性,确保数据仓库中的数据是可靠和一致的,从而提高数据决策的准确性和可靠性。
[0011]可选的,所述数据主题域包括著录主题域、法律主题域、说明书主题域、引用主题域以及复审主题域。
[0012]可选的,在将各所述专利数据来源表划分至对应的数据主题域中,具体包括:分别获取各所述专利数据来源表的来源表特征,所述来源表特征包括第一来源表特征与第二来源表特征;获取各所述数据主题域的数据主题特征;根据所述数据主题特征与所述来源表特征分别计算各所述数据主题域与各所述专利数据来源表之间的归属度;将所述专利数据来源表划分至与自身具备最高所述归属度的所述数据主题域中。
[0013]通过采用上述技术方案,来源表特征对专利数据来源表进行了描述,通过来源表特征确定专利数据来源表的归属数据主题域,保证数据主题域分配的准确性。
[0014]可选的,在分别获取各所述专利数据来源表的来源表特征中,具体包括:根据所述专利数据来源表中包含的数据字段获取所述第一来源表特征。
[0015]通过采用上述技术方案,来源表特征用于企业数据来源表描述,通过专利数据来源表中的各个数据字段抽取来源表特征,保证了来源表特征对专利数据来源表描述的准确性。
[0016]可选的,在分别获取各所述专利数据来源表的来源表特征中,还包括:获取与所述专利数据来源表关联的数据字典;根据所述数据字典获取所述第二来源表特征。
[0017]通过采用上述技术方案,数据字典是对企业数据仓库中的数据进行全面描述和定义的文档或数据库,包括数据表、字段、数据类型、数据格式、数据来源等信息。通过企业数据来源表关联的数据字典抽取来源表特征,进一步保证了来源表特征对企业数据来源表描述的准确性。
[0018]在本申请的第二方面提供了一种基于专利数据的数仓建模系统,所述系统包括以下模块:业务需求信息获取模块,用于获取业务需求信息;
等词旨在以具体方式呈现相关概念。
[0028]在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0029]在对本申请实施例进行介绍之前,首先对本申请实施例中涉及的一些名词进行定义和说明。
[0030]数据仓库(Data Warehouse,DW):数据仓库是一个用于存储和管理企业大量数据的系统,这些数据来自多个不同的操作系统和数据源。它是一个面向主题的、集成的、稳定的、非易失性的、时变的数据集合,用于支持企业决策和分析。数据仓库的设计和构建是为了满足企业需要进行高效的查询和分析,以及支持决策制定。数据仓库通常包括数据抽取、转换和加载(ETL)过程,以及数据存储和查询工具。数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用。
[0031]数据仓库模型:数据仓库模型是指将数据仓库中的数据组织成一种特定的结构,以支持数据仓库中的数据分析和查询。基于数据仓库模型的概念,数据仓库建模即对数据仓库中的数据进行一定结构和组织的规划。
[0032]参照图1,本申请提供了一种基于专利数据的数仓建模方法,该方法具体包括以下步骤:S1:获取业务需求信息;具体的,数据仓库建模是紧贴业务的,所以必须以业务为根基进行建模,那么选择业务过程,顾名思义就是在整个业务流程中选取我们需要建模的业务,根据运营提供的需求及日后的易扩展性等进行选择业务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于专利数据的数仓建模方法,其特征在于,所述方法包括以下步骤:获取业务需求信息;获取专利数据来源表;获取粒度声明信息;对所述专利数据来源表进行处理,将所述专利数据来源表中包含的多值字段转化为单一字段,得到与所述专利数据来源表对应的多张专利数据明细表;根据所述业务需求信息确定各所述专利数据明细表之间的数据逻辑关联;根据全部所述专利数据明细表、所述粒度声明信息以及各所述专利数据明细表之间的所述数据逻辑关联构建数据仓库模型。2.根据权利要求1所述的基于专利数据的数仓建模方法,其特征在于,在对所述专利数据来源表进行处理中,具体包括:识别所述专利数据来源表中的所述多值字段;对包含有所述多值字段的所述专利数据来源表进行拆分,得到与所述多值字段对应的多张第一专利数据明细表;将不包含所述多值字段的所述专利数据来源表直接转化为第二专利数据明细表,完成全部所述专利数据来源表的处理。3.根据权利要求1所述的基于专利数据的数仓建模方法,其特征在于,在对所述专利数据来源表进行处理前,还包括:根据所述业务需求信息确定多个数据主题域,并建立各所述数据主题域之间的业务逻辑关联;将各所述专利数据来源表划分至对应的数据主题域。4.根据权利要求3所述的基于专利数据的数仓建模方法,其特征在于:所述数据主题域包括著录主题域、法律主题域、说明书主题域、引用主题域以及复审主题域。5.根据权利要求3所述的基于专利数据的数仓建模方法,其特征在于,在将各所述专利数据来源表划分至对应的数据主题域中,具体包括:分别获取各所述专利数据来源表的来源表特征,所述来源表特征包括第一来源表特征与第二来源表特征;获取各所述数据主题域的数据主题特征;根据所述数据主题特征与所述来源表特征分别计算各所述数据主题域与各所述专利数据来源表之间的归属度;将所述专利数据来源表划分至与自身具备最高所述归属度的所述数据主题域中。6.根据权利要求3...

【专利技术属性】
技术研发人员:卢春辉何娅娅臧智涛张敏李建雨
申请(专利权)人:企知道科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1