【技术实现步骤摘要】
数据信息处理方法、装置、电子设备及存储介质
[0001]本申请涉及人工智能技术,尤其涉及一种数据信息处理方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,在构建模型对具体的应用场景进行预测之前,首先需要通过对海量数据进行收集和整合,并将数据的特征进行归类进而在模型训练和预测中进行使用,例如身份信息识别技术以及广告推荐技术等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
[0003]相关技术中,通过关联规则匹配的方法无法降低宽表匹配时候的计算复杂性,从而耗费大量计算资源。
技术实现思路
[0004]本申请实施例提供一种数据信息处理方法、装置、电子设备及计算机可读存储介质,能够基于数据源中的特征源表信息生成特征宽表,提高数据信息处理的效率,节约计算资源。
[0005]本申请实施例的技术方案是这样实现的:本申请实施例提供一种数据信息处理方法,包括:基于信 ...
【技术保护点】
【技术特征摘要】
1.一种数据信息处理方法,其特征在于,所述方法包括:基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个所述特征源表信息的参数序列;基于所述参数序列对所述数据源进行匹配处理,得到所述特征源表信息对应的特征字段;对所述特征字段进行拼接处理,生成所述多个数据源对应的特征字典;对所述特征字典中的特征字段进行聚合处理,得到所述特征源表信息对应的数据源特征表;其中,所述数据源特征表包括所述特征字段和关联字段,所述关联字段用于表示所述多个数据源之间的关联关系;基于所述关联字段对每个所述数据源特征表进行递归拼接处理,得到与所述信息构建领域相适配的特征宽表。2.根据权利要求1所述的方法,其特征在于,在所述基于信息构建领域的多个数据源分别对应的特征源表信息,生成用于表征多个所述特征源表信息的参数序列之前,所述方法还包括:获取所述多个数据源的地址;基于所述地址,从所述多个数据源中分别提取对应的所述特征源表信息。3.根据权利要求2所述的方法,其特征在于,所述获取所述多个数据源的地址,包括:显示数据源地址界面,其中,所述数据源地址界面包括多个候选数据源的地址;响应于针对所述候选数据源的地址选择操作,将选中的地址作为所述数据源的地址。4.根据权利要求1所述的方法,其特征在于,所述参数序列中的参数通过所述特征源表信息表征,所述特征源表信息包括特征源库名和特征源表名;当所述特征源表信息通过所述特征源库名和特征源表名标识时,所述基于所述参数序列对所述数据源进行匹配处理,得到所述特征源表信息对应的特征字段,包括:针对所述参数序列中的任意一个所述参数执行以下处理:将所述参数包括的特征源库名、与所述多个数据源的特征源库名进行匹配,得到匹配的特征源库名;将所述参数包括的所述特征源表名、与所述匹配的特征源库名对应的特征源表名进行匹配,得到匹配的特征源表名;从所述匹配的特征源表名对应的特征源表中获取对应的特征字段。5.根据权利要求1所述的方法,其特征在于,所述参数序列中的参数通过所述特征源表信息表征,所述特征源表信息包括特征源库名和特征源表名;当所述特征源表信息通过标识信息标识,所述标识信息为所述特征源库名或特征源表名时,所述基于所述参数序列对所述数据源进行匹配处理,得到所述特征源表信息对应的特征字段,包括:针对所述参数序列中的任意一个所述参数执行以下处理:将所述参数包括的标识信息、与所述多个数据源的标识信息进行匹配,得到匹配的标识信息;从所述匹配的标识信息对应的特征源表中获取对应的特征字段。6.根据权利要求1所述的方法,其特征在于,所述对所述特征字段进行拼接处理,生成
所述多个数据源对应的特征字典,包括:针对任意一个所述数据源中对应的特征字段执行以下处理:将所述特征字段对应的特征源表信息作为前缀,与所述特征字段进行拼接,得到所述数据源对应的单一特征字典;将多个所述单一特征字典进行拼接,得到所述多个数据源对应的特征字典。7.根据权利要求1或6所述的方法,其特征在于,在所述对所述特征字段进行拼接处理,生成所述多个数据源对应的特征字典之后,所述方法还包括:基于所述参数序列,获取所述数据源对应的行数;将所述行数添加到所述特征字典中的库表尺寸字段;按照所述库表尺寸字段,...
【专利技术属性】
技术研发人员:钟子宏,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。