多元信息的特征融合方法、装置、设备及存储介质制造方法及图纸

技术编号:22330054 阅读:62 留言:0更新日期:2019-10-19 12:16
本发明专利技术实施例公开了一种多元信息的特征融合方法、装置、设备及存储介质。所述方法使用分布式的方式实现,包括:获取至少两个数据源表、数据源表之间的关联关系以及初始目标表;选择指定的数据源表作为目标表,并根据数据源表之间的关联关系,查询目标表的关联表;从关联表的多元信息中提取特征并融合到目标表中;对融合特征进行有效性验证,并删除未通过有效性验证的无效特征;返回融合其他数据源表中多元信息的最终目标表。本发明专利技术实施例的技术方案,实现了对多个数据源表中的多元信息自动进行特征融合,并删除无效的融合特征的功能,达到了减少人力成本的开销,降低错误的发生率的效果。

Feature fusion method, device, equipment and storage medium of multivariate information

【技术实现步骤摘要】
多元信息的特征融合方法、装置、设备及存储介质
本专利技术实施例涉及数据挖掘
,尤其涉及一种多元信息的特征融合方法、装置、设备及存储介质。
技术介绍
随着科技的发展和人们生活水平的提高,数据资源日益增多,考虑到数据存储与业务发展的便利性,服务商通常会将一个业务所产生的数据分开存储到不同的数据表中。例如,对于电商业务来说,用户属性一般存在一个单独的用户信息表中,它记录了用户的年龄,性别,地址等基本信息,而用户的消费信息则存在另一个交易表中,它记录了用户在购买某件商品的时间、数量、折扣信息等。在一般的数据挖掘建模场景下,建模人员首先会对各个表的字段完成一些基本统计分析,然后会综合利用各个来源的信息提取用户不同类型特征,形成一个“特征宽表”。仍以上面提到的场景为例,如果要预测用户接下来一段时间的消费情况,除了需要知道用户的基本信息(性别、年龄等)通常还需要用户的消费信息(平均消费额、最常消费时段、最常消费商品类型等),这些消费信息就需要建模人员手动从消费表中提取并与用户基本信息表结合在一起形成新的特征表。现有的特征融合方法需要工作人员按照表的逻辑关系、字段内容以及工作人员的业务知识等规划融合逻辑,综合利用各个来源的信息提取不同类型特征。这种手动方式非常依赖于工作人员的业务素质,需要其花费大量的时间和精力完成一些重复性较高的繁杂操作,并且在数据表或字段数量较多时很容易发生错误。为了帮助建模人员从这种繁杂劳动中解放出来,已有一些自动化的特征提取和融合工具被提出,但是现有的融合工具仍然存在一些缺点限制了融合工具的大范围应用:1)采用单机方法实现,扩展性较差。在大数据时代,工业级应用的数据量很容易超过GB甚至TB量级,单机工具无法应用。2)仅提供了Python的接口,在与使用其他语言和接口实现的工具配合时不是很方便。3)虽然融合了多元数据,但是里面包含较多无效特征,仍然需要一些手动筛选的工作。
技术实现思路
本专利技术实施例提供一种多元信息的特征融合方法、装置、设备及存储介质,以实现对多个数据源表中的多元信息自动进行特征融合,并删除无效的融合特征的功能,实现减少人力成本的开销,降低错误的发生率的效果。此外,本专利技术使用分布式方式实现,能够良好的适用于工业级的大规模数据量集。第一方面,本专利技术实施例提供了一种多元信息的特征融合方法,所述方法使用分布式的方式实现,包括:获取至少两个数据源表、数据源表之间的关联关系以及初始目标表;在特征融合过程中,从未被查询的数据源表中,选择当前目标表,并从未被查询的数据源表中,根据数据源表之间的关联关系,查询当前目标表的关联表;将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中;对所述当前目标表中的融合特征自动化地进行有效性验证,并删除所述当前目标表中未通过有效性验证的无效特征;返回执行当前目标表的选择操作以及关联表的查询操作,直到初始目标表的关联表均已被查询,得到最终目标表。可选的,所述获取至少两个数据源表、数据源表之间的关联关系以及初始目标表,包括:通过预设接口获取至少两个数据源表、数据源表之间的关联关系以及初始目标表;在所述直到当前目标表的关联表均已被查询,得到最终目标表之后,还包括:通过所述预设接口输出所述最终目标表;其中,所述预设接口包括但不限于:Scala语言接口、Java语言接口、Python语言接口、R语言接口以及支持远程调用的RESTFUL接口中的一种。可选的,所述从未被查询的数据源表中,根据数据源表之间的关联关系,查询当前目标表的关联表,包括:从未被查询的数据源表中,根据数据源表之间的关联关系,查询与当前目标表有关联键的关联表。可选的,所述将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中,包括:若关联表中的关联键的数据与当前目标表的关联键的数据是一对多或者一对一的关系,则将关联表中的多元信息直接添加到所述当前目标表的对应列中。可选的,所述将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中,包括:若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系,则将关联表中的多元信息按照关联键进行聚合处理,并将得到的聚合信息添加到所述当前目标表的对应列中。可选的,所述若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系,则将关联表中的多元信息按照关联键进行聚合处理,并将得到的聚合信息添加到所述当前目标表的对应列中,包括:若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系,采用内置聚合函数或者自定义聚合函数,将关联表中的多元信息按照关联键进行聚合处理,并将得到的聚合信息添加到所述当前目标表的对应列中。可选的,所述对所述当前目标表中的融合特征自动化地进行有效性验证,包括:按照业务有效需求,对当前目标表中的融合特征自动化地进行有效性验证;和/或,按照内置聚合函数或者自定义聚合函数的有效适用范围,对当前目标表中的融合特征自动化地进行有效性验证。第二方面,本专利技术实施例还提供了一种多元信息的特征融合装置,所述装置使用分布式的方式实现,包括:数据获取模块,用于获取至少两个数据源表、数据源表之间的关联关系以及初始目标表;关联表查询模块,用于在特征融合过程中,从未被查询的数据源表中,选择当前目标表,并从未被查询的数据源表中,根据数据源表之间的关联关系,查询当前目标表的关联表;特征提取模块,用于将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中;特征验证模块,用于对所述当前目标表中的融合特征自动化地进行有效性验证,并删除所述当前目标表中未通过有效性验证的无效特征;循环模块,用于返回执行当前目标表的选择操作以及关联表的查询操作,直到初始目标表的关联表均已被查询,得到最终目标表。第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术任意实施例提供的多元信息的特征融合方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例提供的多元信息的特征融合方法。本专利技术实施例通过获取多个数据源表、数据源表之间的关联关系以及初始目标表,从未被查询的数据源表中,选择当前目标表,并根据多个数据源表之间的关联关系,查询当前目标表的关联表,将关联表中的多元信息进行特征提取并融合到目标表中,再通过自动化地有效性验证删除目标表中无效的特征,重复执行该过程直到当前目标表的关联表均已被查询为止,实现了自动对所获取数据源表中的多元信息进行有效的特征融合的功能,减少了人工成本的开销,降低了特征融合的错误发生率;而且,本专利技术实施例使用分布式的方式实现,能够高效地对大量数据源表自动进行多元信息的有效特征融合,可扩展性较高;通过对融合特征进行自动化地有效性验证,能够删除无效的融合特征,减少后续人工处理融合特征的成本。附图说明图1是本专利技术实施例一中的一种多元信息的特征融合方法的流程图;图2是本专利技术实施例二中的一种多元信息的特征融合方法的流程图;图3是本专利技术实施例三中的一种多元信息的特征融合装置的结构示意图;图4是本专利技术实施例四中的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的本文档来自技高网
...

【技术保护点】
1.一种多元信息的特征融合方法,其特征在于,所述方法使用分布式的方式实现,包括:获取至少两个数据源表、数据源表之间的关联关系以及初始目标表;在特征融合过程中,从未被查询的数据源表中,选择当前目标表,并从未被查询的数据源表中,根据数据源表之间的关联关系,查询当前目标表的关联表;将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中;对所述当前目标表中的融合特征自动化地进行有效性验证,并删除所述当前目标表中未通过有效性验证的无效特征;返回执行当前目标表的选择操作以及关联表的查询操作,直到初始目标表的关联表均已被查询,得到最终目标表。

【技术特征摘要】
1.一种多元信息的特征融合方法,其特征在于,所述方法使用分布式的方式实现,包括:获取至少两个数据源表、数据源表之间的关联关系以及初始目标表;在特征融合过程中,从未被查询的数据源表中,选择当前目标表,并从未被查询的数据源表中,根据数据源表之间的关联关系,查询当前目标表的关联表;将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中;对所述当前目标表中的融合特征自动化地进行有效性验证,并删除所述当前目标表中未通过有效性验证的无效特征;返回执行当前目标表的选择操作以及关联表的查询操作,直到初始目标表的关联表均已被查询,得到最终目标表。2.根据权利要求1所述的方法,其特征在于,所述获取至少两个数据源表、数据源表之间的关联关系以及初始目标表,包括:通过预设接口获取至少两个数据源表、数据源表之间的关联关系以及初始目标表;在所述直到当前目标表的关联表均已被查询,得到最终目标表之后,还包括:通过所述预设接口输出所述最终目标表;其中,所述预设接口包括但不限于:Scala语言接口、Java语言接口、Python语言接口、R语言接口以及支持远程调用的RESTFUL接口中的一种。3.根据权利要求1所述的方法,其特征在于,所述从未被查询的数据源表中,根据数据源表之间的关联关系,查询当前目标表的关联表,包括:从未被查询的数据源表中,根据数据源表之间的关联关系,查询与当前目标表有关联键的关联表。4.根据权利要求1所述的方法,其特征在于,所述将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中,包括:若关联表中的关联键的数据与当前目标表的关联键的数据是一对多或者一对一的关系,则将关联表中的多元信息直接添加到所述当前目标表的对应列中。5.根据权利要求1所述的方法,其特征在于,所述将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中,包括:若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系,则将关联表中的多元信息按照关联键进行聚合处理,并将得到...

【专利技术属性】
技术研发人员:曾宪宇
申请(专利权)人:星环信息科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1