【技术实现步骤摘要】
企业风险信息处理方法、装置、设备及存储介质
[0001]本申请涉及金融领域或其他相关领域,尤其涉及一种企业风险信息处理方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]企业在经营过程中可以会存在各种类型的风险,对于金融机构而言,为了保证自身经营的稳定性,需要提前对企业的风险进行预判,识别其风险高低程度
。
[0003]目前,企业风险信息识别整合一般根据企业注册信息中的企业名称
、
企业证件
(
统一社会代码
、
注册号
、
组织机构代码
)
与风险信息中的同类信息精确匹配来实现
。
[0004]但是,企业注册信息更新频度低,而在实际经营过程中企业可能会出现更名等场景,现有技术方案无法及时地识别改名后企业的风险信息,容易出现风险预判错误的情况
。
技术实现思路
[0005]本申请提供一种企业风险信息处理方法
、
装置
、
设备及存储介质,用以解决目前当企业信息发生变更时,容易出现无法及时地识别改名后企业的风险信息的技术问题
。
[0006]第一方面,本申请提供一种企业风险信息处理方法,包括:
[0007]获取与目标企业风险关联的基础属性信息
、
用户行为日志和埋点信息数据;
[0008]对所述基础属性信息进行预处理,获取基础属性特征;
[0009] ...
【技术保护点】
【技术特征摘要】
1.
一种企业风险信息处理方法,其特征在于,包括:获取与目标企业风险关联的基础属性信息
、
用户行为日志和埋点信息数据;对所述基础属性信息进行预处理,获取基础属性特征;根据所述用户行为日志和埋点信息数据,构建多维时序统计特征,所述多维时序统计特征用于表征用户模糊搜索的企业和点击查询的企业的匹配关系;根据所述基础属性特征和多维时序统计特征,获取最近邻集合,所述最近邻集合中包括
K
个邻居,
K
为正整数,
K
个邻居用于表征所述匹配关系中与所述目标企业的距离满足预设条件的
K
个疑似匹配关系;根据所述最近邻集合中的
K
个疑似匹配关系,对所述目标企业进行风险识别
。2.
根据权利要求1所述的方法,其特征在于,所述用户行为日志和埋点数据包括:目标对应关系搜索次数
、
目标对应关系在预设时间段内的平均搜索次数
、
目标对应关系点击率
、
目标对应关系平均点击率
、
用户在页面的停留时间在第一目标时间范围区间的次数
、
用户访问深度
、
用户平均访问深度
、
搜索企业在第二目标时间范围区间重复搜索次数
、
页面跳出率,所述目标对应关系用于表征用户模糊搜索的企业与用户点击查询的企业的对应关系
。3.
根据权利要求1所述的方法,其特征在于,所述根据所述基础属性特征和多维时序统计特征,获取最近邻集合,包括:根据所述基础属性特征和多维时序统计特征,构建每个样本的特征向量;根据特征向量的余弦相似度,确定每个匹配关系与目标企业的距离;根据每个匹配关系与目标企业的距离,获取最近邻集合
。4.
根据权利要求1所述的方法,其特征在于,所述根据所述最近邻集合中的
K
个疑似匹配关系,对所述目标企业进行风险识别,包括:获取所述最近邻集合中每个疑似匹配关系的预测评分;将每个疑似匹配关系的预测评分作为梯度提升决策树算法的多分类器所需的预测空间进行集成,筛选出预测评分最高的疑似匹配关系,作为目标匹配关系;根据所述目标匹配关系,对所述目标企业进行信息整合,得到信息整合后的目标企业;对信息整合后的目标企业进行风险识别
。5.
根据权利要求1所述的方法,其特征在于,所述对所述基础属性信息进行预处理,包括:通过汉语语言模型
N
‑
Gram
的分词算法对所述基础属性信息进行分词,提取得到待处理信息,所述待处理信息包括第一待处理信息和第二待处理信息;对所述第一待处理信息中的内容进行数据清洗;根据预设标准,对第二待处理信息的格式进行标准化处理,所述标准化处理包括地址标准化
、
联系电话标准化中的至少一种
。6.
根据权利要求5所述的方法,其特征在于,所述对所述第一待处理信息中的内容进行数据清洗,包括:将所述第一待处理信息中的空格删除;对所述第一待处理信...
【专利技术属性】
技术研发人员:胡慧丽,林苏燕,李展,顾丹铭,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。