数据序列化后特征提取方法、系统及计算机可读存储介质技术方案

技术编号:26303999 阅读:27 留言:0更新日期:2020-11-10 19:59
本发明专利技术公开了一种数据序列化后特征提取方法、系统及存储介质。所述数据序列化后特征提取方法包括如下步骤:获取原始数据,并将所述原始数据序列化为字符类数据;统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据,其中,所述权值为一所述字符出现频度;获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据。本发明专利技术的技术方案能够解决相关技术中,数据本体过大,导致计算机设备的内存占比过大、运算速度降低以及网络传输过慢的技术问题。

【技术实现步骤摘要】
数据序列化后特征提取方法、系统及计算机可读存储介质
本专利技术涉及区块链
,尤其涉及一种数据序列化后特征提取方法、系统以及计算机可读存储介质。
技术介绍
在相关技术中,存在如下技术:1.数据序列化技术在计算机设备存储和运算数据过程中,数据序列化技术是一项必不可少的技术。数据序列化就是将对象或者数据结构转化成特定的格式,使其可在网络中传输,或者可存储在内存或者文件中。反序列化则是相反的操作,将对象从序列化数据中还原出来。而数据序列化后的数据格式可以是二进制,可以是XML,也可以是JSON等任何格式。数据序列化的重点在于数据的交换和传输。当需要数据持久化或网络时,需要将数据进行序列化。例如:(1)数据持久化:比如一个电商平台,有数万个用户并发访问的时候会产生数万个session对象,这个时候内存的压力是很大的。可以把session对象序列化(存储)到硬盘中,需要时在反序列化,减少内存压力,这时序列化完的结果并不是二进制数据。(2)网络传输:将系统拆分成多个服务之后,服务之间传输对象,不管是何种类本文档来自技高网...

【技术保护点】
1.一种数据序列化后特征提取方法,其特征在于,包括如下步骤:/n获取原始数据,并将所述原始数据序列化为字符类数据;/n统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据,其中,所述权值为一所述字符出现频度;/n获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据。/n

【技术特征摘要】
1.一种数据序列化后特征提取方法,其特征在于,包括如下步骤:
获取原始数据,并将所述原始数据序列化为字符类数据;
统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据,其中,所述权值为一所述字符出现频度;
获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据。


2.如权利要求1所述的数据序列化后特征提取方法,其特征在于,所述获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据的步骤之后,还包括如下步骤:
将所述数据组类数据序列化为二进制数据,以便于对外传输。


3.如权利要求1所述的数据序列化特征提取方法,其特征在于,所述获取最优二叉树数据中各字符的层数信息,并根据所述层数信息将所述二叉树数据转化为数组类数据的步骤之后,还包括如下步骤:
根据所述字符的内存地址在所述数组类数据中检索获取该字符。


4.如权利要求1所述的数据序列化特征提取方法,其特征在于,所述统计分析所述字符类数据中各字符的权值,并根据所述权值将所述字符类数据转化为最优二叉树数据的步骤,具体包括如下步骤:
统计分析各字符的权值,并依照所述权值的高低对所述字符进行排序;
将排序靠后的两个字符合并为新的字符,并将两个字符的权值相加作为所述新的字符的权值;
再次统计分析各字符的权值,并依照所述权值的高低对所述字符进行再次排序;
判断所述字符的个数是否唯一;
当所述字符的个数唯一时,对进行唯一的所述字符进行数据分层操作,并设置各所述字符的所述层数信息,以形成所述最优二叉树数据;
当所述字符的个数不唯一时,再次进入所述将所述权值靠后的两个字符合并为新的字符,并将两个原始字符的权值...

【专利技术属性】
技术研发人员:翟红鹰
申请(专利权)人:普华云创科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1