【技术实现步骤摘要】
用于大数据统计分析的数据处理方法及系统
[0001]本申请涉及智能化数据处理
,且更为具体地,涉及一种用于大数据统计分析的数据处理方法及系统。
技术介绍
[0002]企业在数字化转型中会沉淀诸多数据,例如,例如,访客信息、员工操作日志、各类办公文档等等。对这些数据进行总体统计、发展统计以及业务量统计,可以为企业的决策层和高级管理人员的分析决策提供数据依据。
[0003]数据安全一直是数字化企业面临的挑战,近年来数据处理系统面临的威胁远不止几个心怀不轨的黑客,可能还有人员配置完善的专家团队。保障数据安全是用于大数据统计分析的数据处理系统的必要前提,以防止大数据被泄露。
[0004]因此,期待一种用于大数据统计分析的数据处理方法,其能够在进行大数据统计分析前,对访客进行风险评估以确保数据安全。
技术实现思路
[0005]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于大数据统计分析的数据处理方法及系统,其获取访客所需访问和调取的资料的文本描述,以及,所述访客的身份标签信息;使 ...
【技术保护点】
【技术特征摘要】
1.一种用于大数据统计分析的数据处理方法,其特征在于,包括:获取访客所需访问和调取的资料的文本描述,以及,所述访客的身份标签信息;将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量;将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量;计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;以及将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为访客开放资料访问和调用权限。2.根据权利要求1所述的用于大数据统计分析的数据处理方法,其特征在于,所述将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量,包括:对所述访客所需访问和调取的资料的文本描述进行分词处理以将所述访客所需访问和调取的资料的文本描述转化为由多个词组成的词序列;使用所述语义编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量;以及将所述多个语义特征向量进行级联以得到所述资源描述语义特征向量。3.根据权利要求2所述的用于大数据统计分析的数据处理方法,其特征在于,所述使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量,包括:将所述词向量的序列进行一维排列以得到词特征向量;计算所述词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个语义特征向量。4.根据权利要求3所述的用于大数据统计分析的数据处理方法,其特征在于,所述计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵,包括:以如下公式计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;其中,所述公式为:
其中,表示所述资源描述语义特征向量,表示所述身份标签语义特征向量,表示所述分类特征矩阵,表示矩阵相乘。5.根据权利要求4所述的用于大数据统计分析的数据处理方法,其特征在于,所述将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为访客开放资料访问和调用权限,包括:将所述分类特征矩阵...
【专利技术属性】
技术研发人员:沈敏杰,庞程潇,
申请(专利权)人:杭州图灵数科信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。