【技术实现步骤摘要】
企业属性数据预测方法、装置、电子设备及存储介质
[0001]本申请实施例涉及数据处理
,尤其涉及一种企业属性数据预测方法、装置、电子设备及计算机存储介质。
技术介绍
[0002]工商信息、知识产权、司法文书等数据是企业的数字化投影,行业专家可以从这些数据中预测企业的能力与风险。然而,在实际应用中,常常存在企业的部分属性信息缺失的问题,导致无法针对企业的能力与风险进行客观地、全面地评估。
[0003]若能将行业专家的知识经验和判断逻辑构建成计算机模型,将可提高企业数据挖掘的效率,并降低企业间合作的不透明度。
[0004]在目前的建模方案中,需要由行业专家将知识经验梳理成统计指标,并将判断逻辑编写成规则文本,再由开发人员转义成程序运行,此种方式主要存在以下问题:
[0005]其一是建模过程复杂,从专家知识到计算机模型需要多个部门协同工作,不利于敏捷开发模型。
[0006]其二是模型的应用效果较差,在专家总结和转义规则的过程中存在信息损失。
[0007]有鉴于此,如何降低模型构建成本并 ...
【技术保护点】
【技术特征摘要】
1.一种企业属性数据预测方法,其特征在于,包括:获取企业对象的给定属性;以及根据所述给定属性,利用属性数据预测模型预测所述企业对象的缺失属性,其中,所述给定属性和所述缺失属性之间存在关联关系,所述属性数据预测模型是基于样本企业的未遮蔽属性和遮蔽属性所预先训练的。2.根据权利要求1所述企业属性数据预测方法,其特征在于,所述给定属性包括所述企业对象的各所述非结构化企业属性数据,或包括所述企业对象的各所述非结构化企业属性数据与至少一个结构化企业属性数据;所述缺失属性包括所述企业对象的至少一个所述结构化企业属性数据。3.根据权利要求1所述的企业属性数据预测方法,其特征在于,通过以下步骤训练所述属性数据预测模型:针对样本企业的各结构化属性数据与各非结构化属性数据执行特征提取,获取包含各结构化特征向量与各非结构化特征向量的特征向量集;针对所述特征向量集中的至少一个所述结构化特征向量执行遮蔽操作,以确定所述特征向量集的所述未遮蔽属性和所述遮蔽属性;以及构建属性数据预测模型,将所述未遮蔽属性作为输入,并将所述遮蔽属性作为输出,以训练所述属性数据预测模型。4.根据权利要求3所述的企业属性数据预测方法,其特征在于,所述针对样本企业的各结构化属性数据与各非结构化属性数据执行特征提取,获取包含各结构化特征向量与各非结构化特征向量的特征向量集包括:基于预设结构化特征提取规则,针对各所述结构化属性数据执行特征提取,获取各所述结构化特征向量:基于预设非结构化特征提取规则,针对各所述非结构化属性数据执行特征提取,获取各所述非结构化特征向量;根据各所述结构化特征向量与各所述非结构化特征向量,生成所述样本企业的特征矩阵。5.根据权利要求4所述的企业属性数据预测方法,其特征在于,所述基于预设结构化特征提取规则,针对各所述结构化属性数据执行特征提取,获取各所述结构化特征向量包括:根据所述结构化属性数据对应的各候选分箱编码,从各所述候选分箱编码中确定所述结构化属性数据的真实分箱编码;根据预设特征映射规则,将所述真实分箱编码映射为所述结构化特征向量。6.根据权利要求4或5所述的企业属性数据预测方法,其特征在于,所述基于预设非结构化特征提取规则,针对各所述非结构化属性数据执行特征提取,获取各所述非结构化特征向量包括:利用自注意力机制的语言模型识别所述非结构化属性数据,获取所述非结构化属性数据的所述非结构化特征向量。7.根据权利要求6所述的企业属性数据预测方法,其特征在于,所述语言模型包括BERT模型、RoBERTa模型、T5模型中的一个。8.根据权利要求3至6中任一项所述的企业属性数据预测方法,其特征在于,各所述结
构化特征向量与各所述非结构化特征向量具有相同的向量长度。9.根据权利要求3至6中任一项所述的企业属性数据预测方法,其特征在于,所述针对所述特征向量集中的至少一个所述结构化特征向量执行遮蔽操作,以确定所述特征向量集的未遮蔽属性和遮蔽属性包括:针对所述...
【专利技术属性】
技术研发人员:刘天宇,
申请(专利权)人:北京金堤科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。