【技术实现步骤摘要】
企业数据分析方法、装置及服务器
本专利技术涉及数据处理
,具体而言,涉及一种企业数据分析方法、装置及服务器。
技术介绍
随着科技的发展,创业型企业如雨后春笋般涌现。创业型企业从无到有,从小规模发展到大规模需要漫长的时间积累和技术积累。在创业型企业的发展过程中,如何利用大数据分析出企业的发展轨迹以及发展过程中可能出现的风险是现阶段亟待解决的一个技术问题。
技术实现思路
为了至少克服现有技术中的上述不足,本专利技术的目的之一在于提供一种企业数据分析方法、装置及服务器。本专利技术实施例的第一方面,提供了一种企业数据分析方法,应用于与所述企业端通信的所述服务器,所述方法至少包括:按照所述设定时长间隔从所述企业端采集所述企业端中存储的多种当前企业数据;其中,所述当前企业数据为当前运营数据、当前财务数据、当前研发数据、当前行业数据或当前申报数据;提取出各种当前企业数据的数据结构清单,搭建企业端数据结构池;该企业端数据结构池为多区域结构池,每个区域对应一种当前企业数据的数据结构清单,该企业端数据结构池的各个区域具有不同的第一发展轨迹权重系数;从预设数据库中确定出与该企业端存在关联关系的样本企业端的样本发展轨迹信息;从与该企业端存在关联关系的样本企业端的样本发展轨迹信息中确定出至少一个与所述企业端数据结构池中的数据结构清单存在匹配关系的样本数据结构清单;将所述样本数据结构清单映射至所述企业端数据结构池中得到所述样本数据结构清单在所述企业端数据结构池中的样本区域;根据所 ...
【技术保护点】
1.一种企业数据分析方法,其特征在于,应用于与所述企业端通信的所述服务器,所述方法至少包括:/n按照所述设定时长间隔从所述企业端采集所述企业端中存储的多种当前企业数据;其中,所述当前企业数据为当前运营数据、当前财务数据、当前研发数据、当前行业数据或当前申报数据;/n提取出各种当前企业数据的数据结构清单,搭建企业端数据结构池;该企业端数据结构池为多区域结构池,每个区域对应一种当前企业数据的数据结构清单,该企业端数据结构池的各个区域具有不同的第一发展轨迹权重系数;/n从预设数据库中确定出与该企业端存在关联关系的样本企业端的样本发展轨迹信息;从与该企业端存在关联关系的样本企业端的样本发展轨迹信息中确定出至少一个与所述企业端数据结构池中的数据结构清单存在匹配关系的样本数据结构清单;/n将所述样本数据结构清单映射至所述企业端数据结构池中得到所述样本数据结构清单在所述企业端数据结构池中的样本区域;根据所述样本区域与所述企业端数据结构池中的每个区域之间的距离确定出所述样本区域的第二发展轨迹权重系数;/n分别对所述样本数据结构清单以及每个数据结构清单进行数据特征提取,得到所述样本数据结构清单对应的第一 ...
【技术特征摘要】
1.一种企业数据分析方法,其特征在于,应用于与所述企业端通信的所述服务器,所述方法至少包括:
按照所述设定时长间隔从所述企业端采集所述企业端中存储的多种当前企业数据;其中,所述当前企业数据为当前运营数据、当前财务数据、当前研发数据、当前行业数据或当前申报数据;
提取出各种当前企业数据的数据结构清单,搭建企业端数据结构池;该企业端数据结构池为多区域结构池,每个区域对应一种当前企业数据的数据结构清单,该企业端数据结构池的各个区域具有不同的第一发展轨迹权重系数;
从预设数据库中确定出与该企业端存在关联关系的样本企业端的样本发展轨迹信息;从与该企业端存在关联关系的样本企业端的样本发展轨迹信息中确定出至少一个与所述企业端数据结构池中的数据结构清单存在匹配关系的样本数据结构清单;
将所述样本数据结构清单映射至所述企业端数据结构池中得到所述样本数据结构清单在所述企业端数据结构池中的样本区域;根据所述样本区域与所述企业端数据结构池中的每个区域之间的距离确定出所述样本区域的第二发展轨迹权重系数;
分别对所述样本数据结构清单以及每个数据结构清单进行数据特征提取,得到所述样本数据结构清单对应的第一特征向量以及每个数据结构清单对应的第二特征向量;
针对每个第二特征向量,基于该第二特征向量对应的第一发展轨迹权重系数与所述第一特征向量对应的第二发展轨迹权重系数之间的比较结果对该第二特征向量进行加权,得到第二目标特征向量;确定出该第二目标特征向量与所述第一特征向量之间的相似度结果;根据确定出的每个第二目标特征向量与所述第一特征向量之间的相似度结果确定出当前企业数据对应的当前发展轨迹信息;
判断当前发展轨迹信息是否存在异常;在当前发展轨迹信息存在异常时,根据预先生成的样本发展轨迹信息的样本风控策略以及当前发展轨迹信息生成与当前发展轨迹信息对应的当前风控策略。
2.根据权利要求1所述的企业数据分析方法,其特征在于,所述提取出各种当前企业数据的数据结构清单,搭建企业端数据结构池,包括:
针对每种当前企业数据,根据该种当前企业数据中的字符信息确定出该种当前企业数据的主题信息并基于该种当前企业数据的主题信息确定出该种当前企业数据的主题类别;
针对确定出的每个主题类别,获取与该主题类别对应的数据拆分逻辑表单并根据与该主题类别对应的数据拆分逻辑表单对该主题类别对应的当前企业数据中的结构化数据进行拆分,得到与该主题类别对应的第一数据集;
针对每个第一数据集中包括的多个数据段,按照该第一数据集对应的主题类别确定出该第一数据集对应的排序方式并按照该第一数据集对应的排序方式对该第一数据集中的多个数据段进行排序,得到与该第一数据集对应的第二数据集;
针对每个第二数据集,按照与该第二数据集对应的数据拆分逻辑表单中的逻辑向量对该第二数据集中完成排序的所有数据段进行数据逻辑连线,得到与该第二数据集对应的当前企业数据的数据结构清单;
按照设定遍历次数对得到的每个数据结构清单进行遍历,得到每一次的遍历结果;其中,每一次的遍历结果中包括对得到的每个数据结构清单进行遍历的遍历顺序以及每个数据结构清单对应的数据稳定权重值;
根据每一次的遍历结果中包括的遍历顺序和数据稳定权重值,搭建数据结构网络节点集;基于针对所述企业端的设定的数据置信度阈值将每个数据结构清单添加到所述数据结构网络节点集中,得到所述企业端数据结构池。
3.根据权利要求1-3任一项所述的企业数据分析方法,其特征在于,所述从预设数据库中确定出与该企业端存在关联关系的样本企业端的样本发展轨迹信息,包括:
根据所述多种当前企业数据中每种当前企业数据对应的存储时间信息确定出每种当前企业数据对应的上一设定时长间隔内的历史企业数据;
基于每种历史企业数据查询得到所述企业端在上一设定时长间隔内的企业发展路径信息;根据每组企业发展路径信息生成对应的用于表征所述企业端在每组企业发展路径信息下的目标数据组;针对每个目标数据组,提取该目标数据组中的每个数据节点中封装的执行函数;确定出每个目标数据组对应的所有执行函数中的每个执行函数的函数类型并根据每个函数类型确定出每个目标数据组对应的第一企业发展类型标识;基于每个第一企业发展类型标识确定出每个目标数据组对应的目标企业端,其中,每个目标数据组对应的目标企业端的第二企业发展类型标识与该目标数据组对应的第一企业发展类型标识之间的相似度大于设定值;
确定出每个目标企业端对应的目标企业发展轨迹信息并对确定出的每个目标企业发展轨迹信息先后进行字符拆分和特征提取,得到每个目标企业发展轨迹信息对应的第三特征向量;确定出每个目标数据组的第四特征向量并根据每个目标数据组对应的第一企业发展类型标识对每个目标数据组的第四特征向量进行融合得到第五特征向量;
确定分别出所述第五特征向量与每个第三特征向量之间的第一余弦距离并按照第一余弦距离由大到小的顺序对每个第三特征向量对应的目标企业发展轨迹信息进行排序得到排序序列;根据所述设定时长间隔确定出信息抓取值并按照所述信息抓取值从所述排序序列中抓取对所述信息抓取值对应数量的目标企业发展轨迹信息,得到多个待处理目标企业发展轨迹信息;针对每个待处理目标企业发展轨迹信息,基于该待处理目标企业发展轨迹信息对应的第二企业发展类型标识对该待处理目标企业发展轨迹信息对应的第三特征向量进行加权得到第六特征向量;分别确定出所述第五特征向量与每个第六特征向量之间的第二余弦距离;确定出第二余弦距离的最小值和最大值并根据所述最小值和所述最大值生成余弦距离数值区间;
根据所述企业端数据结构池中的区域总数以及各区域的数据容量的大小关系确定出所述余弦距离数值区间的区间划分次数;基于所述区间划分次数对所述余弦距离数值区间进行划分得到多个数值区间段;
根据该企业端数据结构池中的各个区域对应的第一发展轨迹权重系数确定出每个数值区间段的调整系数;基于每个数值区间段的调整系数对每个数值区间段的区间范围进行调整;统计每个数值区间内的第二余弦距离的累计数量,将最大累计数量对应的数值区间确定为目标数值区间;确定出所述目标数值区间中的最大第二余弦距离并将所述最大第二余弦距离对应的目标企业端确定为所述样本企业端并将所述最大第二余弦距离对应的待处理目标企业发展轨迹信息确定为所述样本企业发展轨迹信息。
4.根据权利要求1所述的企业数据分析方法,其特征在于,所述判断当前发展轨迹信息是否存在异常,包括:
对当前发展轨迹信息进行轨迹模拟,确定出当前发展轨迹对应的多个轨迹节点;
针对每个轨迹节点,确定出该轨迹节点对应的目标事件并根据该轨迹节点对应的目标事件确定出该轨迹节点的有向连线的连线信息;
根据每个轨迹节点的连线信息对每个轨迹节点进行重连线得到目标发展轨迹信息;
确定出当前发展轨迹信息中的每个第一轨迹节点的第一事件输出信息并按照当前发展轨迹信息对应的第一连线信息集确定当前发展轨迹信息对应的所有第一事件输出信息的第一输出结果;确定出所述目标发展轨迹信息中的每个第二轨迹节点的第二事件输出信息并按照所述目标发展轨迹信息对应的第二连线信息集确定所述目标发展轨迹信息对应的所有第二事件输出信息的第二输出结果;
判断所述第一输出结果与所述第二输出结果之间的重叠率是否达到设定概率;在所述第一输出结果与所述第二输出结果之间的所述重叠率没有达到所述设定概率时确定当前发展轨迹信息存在异常。
5.一种企业数据分析装置,其特征在于,应用于与所述企业端通信的所述服务器,所述装置至少包括:
采集模块,用于按照所述设定时长间隔从所述企业端采集所述企业端中存储的多...
【专利技术属性】
技术研发人员:秦佩,倪向东,胡建敏,费红琳,胡幼华,
申请(专利权)人:广州博士信息技术研究院有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。