System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据仓库建模方法和系统技术方案_技高网

数据仓库建模方法和系统技术方案

技术编号:41400148 阅读:5 留言:0更新日期:2024-05-20 19:24
本公开提供一种数据仓库建模方法和系统,包括:基于预设实体关系抽取模型从待处理数据中,抽取与预设实体类型对应的目标实体,其中,待处理数据为非结构化数据,从获得的语料知识信息中,获取与目标实体具有上下位关系的上下层维度信息,语料知识信息与待处理数据的所属领域相同,从获得的扩展数据库中,获取与目标实体对应的目标扩展维度信息,扩展数据库中包括各实体各自对应的扩展维度信息,各实体包括目标实体,各实体各自对应的扩展维度信息中包括目标扩展维度信息,根据目标实体、上下层维度信息、目标扩展维度信息,构建与待处理数据对应的数据模型,无需提前知道文件类型并依赖固定的格式规则,因此适用性更广,且可以达到较高解析率。

【技术实现步骤摘要】

本说明书涉及数据处理,尤其涉及一种数据仓库建模方法和系统


技术介绍

1、数据仓库建模可以便于将数据有序组织和存储起来,因此数据仓库建模被广泛应用于各领域和各行业。

2、在相关技术中,在数据仓库建模系统进行数据仓库建模时,尤其涉及到非结构数据,需要预先知道非结构化数据的文件类型(或称为文件格式),且需要预先定与文件类型对应的义解析规则,以结合解析规则实现数据仓库建模。

3、然而,由于解析规则与文件类型为对应关系,因此上述相关技术中的方法适用范围相对狭窄,且解析规则相对比较固化,待处理数据的文件类型的稍微变动都会带来解析率的下降,从而影响数据仓库建模的准确性。

4、值得说明的是,上述相关技术的内容仅仅是专利技术人个人所知晓的信息,并不代表上述信息在本公开申请日之前已经进入公共领域,也不代表其可以成为本公开的现有技术。


技术实现思路

1、本公开提供一种数据仓库建模方法和系统,用以避免上述技术问题中的至少一种。

2、第一方面,本公开提供一种数据仓库建模方法,包括:

3、基于预设实体关系抽取模型从待处理数据中,抽取与预设实体类型对应的目标实体,其中,所述待处理数据为非结构化数据;

4、从获得的语料知识信息中,获取与所述目标实体具有上下位关系的上下层维度信息,其中,所述语料知识信息与所述待处理数据的所属领域相同;

5、从获得的扩展数据库中,获取与所述目标实体对应的目标扩展维度信息,其中,所述扩展数据库中包括各实体各自对应的扩展维度信息,所述各实体包括所述目标实体,所述各实体各自对应的扩展维度信息中包括所述目标扩展维度信息;

6、根据所述目标实体、所述上下层维度信息、所述目标扩展维度信息,构建与所述待处理数据对应的数据模型。

7、在一些实施例中,所述基于预设实体关系抽取模型从待处理数据中,抽取与预设实体类型对应的目标实体,包括:

8、基于预设实体关系抽取模型从所述待处理数据中,提取与预设实体类型对应的实体库,其中,所述实体库中包括多个初始实体,所述多个初始实体中包括至少部分不同的实体;

9、对所述多个初始实体进行归一化,得到所述目标实体。

10、在一些实施例中,所述对所述多个初始实体进行归一化,得到所述目标实体,包括:

11、基于预先训练的相似关系识别模型对所述多个初始实体进行识别,得到所述多个初始实体之间的相似关系,其中,所述相似关系识别模型是基于预先标注的实体关系训练集训练得到的;

12、根据所述相似关系对所述多个初始实体进行归一化,得到所述目标实体。

13、在一些实施例中,所述预设实体关系抽取模型包括命名实体识别模型;所述基于预设实体关系抽取模型从待处理数据中,抽取与预设实体类型对应的目标实体,包括:

14、将所述待处理数据输入至所述命名实体识别模型中,输出所述目标实体;

15、其中,所述命名实体识别模型是基于预先标注的实体类型训练集对获得的预训练语言模型进行训练得到的。

16、在一些实施例中,所述上下层维度信息是基于预先训练的上下位关系识别模型从所述语料知识信息中获得的,其中,所述上下位关系识别模型是基于预先标注的上下位关系训练集训练得到的。

17、在一些实施例中,所述从获得的扩展数据库中,获取与所述目标实体对应的目标扩展维度信息,包括:

18、从所述扩展数据库中,获得与所述目标实体对应的多个初始扩展维度信息,其中,所述多个初始扩展维度信息中的至少部分初始扩展维度信息不同;

19、从所述多个初始扩展维度信息中,确定相同数量最多的初始扩展维度信息,并将所述相同数量最多的初始扩展维度信息确定为所述目标扩展维度信息。

20、在一些实施例中,所述目标扩展维度信息是以所述目标实体为主键,从所述扩展数据库中获得的。

21、在一些实施例中,所述根据所述目标实体、所述上下层维度信息、所述目标扩展维度信息,构建与所述待处理数据对应的数据模型,包括:

22、将所述目标实体、所述上下层维度信息、所述目标扩展维度信息,与所述待处理数据对应的对象事实数据进行关联,得到所述数据模型。

23、在一些实施例中,所述待处理数据为商品信息数据,所述对象事实数据为商品事实数据,所述数据模型包括结构化的商品数据雪花模型;

24、所述商品数据雪花模型包括与所述商品事实数据对应的事实表、与所述预设实体类型对应的维表、与所述目标扩展维度信息对应的扩展维表、与所述上下层维度信息对应的上下层维表。

25、第二方面,一种数据仓库建模系统,包括:

26、至少一个存储器,所述存储器包括至少一组指令进行数据仓库建模;

27、至少一个处理器,同所述至少一个存储器进行通讯;

28、其中,当所述至少一个处理器执行所述至少一组指令时,实施如第一方面任一项所述的方法。

29、第三方面,本公开提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行第一方面任一项所述的方法。

30、第四方面,本公开提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;

31、所述存储器存储计算机执行指令;

32、所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面任一项所述的方法。

33、第五方面,本公开提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面任一项所述的方法。

34、由以上技术方案可知,本公开提供的数据仓库建模方法和系统,包括:基于预设实体关系抽取模型从待处理数据中,抽取与预设实体类型对应的目标实体,其中,待处理数据为非结构化数据,从获得的语料知识信息中,获取与目标实体具有上下位关系的上下层维度信息,其中,语料知识信息与待处理数据的所属领域相同,从获得的扩展数据库中,获取与目标实体对应的目标扩展维度信息,其中,扩展数据库中包括各实体各自对应的扩展维度信息,各实体包括目标实体,各实体各自对应的扩展维度信息中包括目标扩展维度信息,根据目标实体、上下层维度信息、目标扩展维度信息,构建与待处理数据对应的数据模型,在本实施例中,针对非结构化的待处理数据,仓库建模系统可以基于预设实体关系抽取模型确定目标实体,因此不需要提前知道商品数据信息存储的文件类型,因此相较于业内成熟的基于固定的文本格式预定义规则做解析的方式,本方案的适用性更广,在面对格式复杂多变的文件时,预定义规则往往存在调整不及时,覆盖不全面导致解析率偏低,本方案所应用的实体关系抽取模型不依赖固定的格式规则,因此能在格式发生变化的时候同样达到高解析率,且仓库建模系统通过提取目标实体,并从除待处理数据之外的预料知识信息、扩展数据库中对目标实体的相关信息进行扩展,相当于结合待处理数据和外部数据构建数据模型,以提高数据模型的丰富性本文档来自技高网...

【技术保护点】

1.一种数据仓库建模方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于预设实体关系抽取模型从待处理数据中,抽取与预设实体类型对应的目标实体,包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述多个初始实体进行归一化,得到所述目标实体,包括:

4.根据权利要求1所述的方法,其特征在于,所述预设实体关系抽取模型包括命名实体识别模型;所述基于预设实体关系抽取模型从待处理数据中,抽取与预设实体类型对应的目标实体,包括:

5.根据权利要求1所述的方法,其特征在于,所述上下层维度信息是基于预先训练的上下位关系识别模型从所述语料知识信息中获得的,其中,所述上下位关系识别模型是基于预先标注的上下位关系训练集训练得到的。

6.根据权利要求1所述的方法,其特征在于,所述从获得的扩展数据库中,获取与所述目标实体对应的目标扩展维度信息,包括:

7.根据权利要求1所述的方法,其特征在于,所述目标扩展维度信息是以所述目标实体为主键,从所述扩展数据库中获得的。

8.根据权利要求1所述的方法,其特征在于,所述根据所述目标实体、所述上下层维度信息、所述目标扩展维度信息,构建与所述待处理数据对应的数据模型,包括:

9.根据权利要求8所述的方法,其特征在于,所述待处理数据为商品信息数据,所述对象事实数据为商品事实数据,所述数据模型包括结构化的商品数据雪花模型;

10.一种数据仓库建模系统,其特征在于,包括:

...

【技术特征摘要】

1.一种数据仓库建模方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于预设实体关系抽取模型从待处理数据中,抽取与预设实体类型对应的目标实体,包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述多个初始实体进行归一化,得到所述目标实体,包括:

4.根据权利要求1所述的方法,其特征在于,所述预设实体关系抽取模型包括命名实体识别模型;所述基于预设实体关系抽取模型从待处理数据中,抽取与预设实体类型对应的目标实体,包括:

5.根据权利要求1所述的方法,其特征在于,所述上下层维度信息是基于预先训练的上下位关系识别模型从所述语料知识信息中获得的,其中,所述上下位关系识别模型是基于预先标注...

【专利技术属性】
技术研发人员:李跃波
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1