一种基于符号特征获取事件大数据信息的算法制造技术

技术编号:12583334 阅读:84 留言:0更新日期:2015-12-23 23:36
本发明专利技术公开了一种基于符号特征获取事件大数据信息的算法,包括如下步骤:步骤1:获取事件的十进制时间序列{xn}并设置采样总长度;步骤2:设置待编码的二进制符号长度L和取样时延τ;步骤3:计算十进制时间序列{xn}的均值μ;步骤4:以μ作为0和1两个符号域的划分线P0,设置阈值函数;步骤5:对{xn}遍施阈值函数,按照二进制符号长度L和取样时延τ将十进制时间序列{xn}的元素xn变换为二进制符号序列{sn}中的元素sn,构建二进制符号序列{sn};步骤6:对{sn}进行十进制编码,将其转换为十进制符号码序列{Sn};步骤7:统计{Sn}中每个符号码Sn出现的频度Pn,形成符号码Sn‐频度Pn直方图形。实现了大数据特征的显性化,便于判定代表事件的十进制时间序列{xn}是否具有大数据特征。

【技术实现步骤摘要】

本专利技术设及。
技术介绍
对于"大数据"度igdata)研究机构Gartner给出了运样的定义:"大数据"是需 要新处理模式才能具有更强的决策力、桐察发现力和流程优化能力的海量、高增长率和多 样化的信息资产。 对于如图1所示描述某一广义事件的十进制时间序列,其大数据特征是怎样的? 如果存在大数据特征,则如何得到该大数据特征?现有技术中获得大数据的方法并不唯 一,本专利提出。
技术实现思路
针对上述问题,本专利技术提供,实现 了大数据特征的显性化,便于判定对应于某一符号码S。的特定事件是否具有大数据特征; 进一步地,便于判定对应于符号码序列怯。}(也即对应于十进制时间序列lx。})的某一广义 事件是否具有随机性或确定性。 阳〇化]为实现上述技术目的,达到上述技术效果,本专利技术通过W下技术方案实现: ,其特征在于,包括如下步骤: 步骤1 :获取事件的十进制时间序列{X。}并设置采样总长度; 步骤2 :设置待编码的二进制符号长度L和取样时延I; 步骤3 :计算十进制时间序列{X。}的均值y ; 步骤4 :Wy作为0和1两个符号域的划分线P。,设置阔值函数 步骤5 :对{X。}遍施阔值函数,按照二进制符号长度L和取样时延I将十进制时 间序列lx。}的元素X。变换为二进制符号序列{s。}中的元素S。,构建二进制符号序列{s。}; 步骤6 :对{s。}进行十进制编码,将其转换为十进制符号码序列怯。};[001引步骤7 :统计怯。}中每个符号码S。出现的频度P。,形成符号码S。-频度P。直方图 形。 优选,还包括步骤8:根据符号码S。-频度P。直方图形计算改进赌Hg(L)。 本专利技术的有益效果是: 对该时间序列{X。}施行"粗粒化"一一符号化,使原来数值变化多端的时间序列 转换成为仅有几个数值的符号序列。通过"粗粒化"加工,得到符号码S。-频度P。图形,其 中,大频度的符号码对应着强烈信息,小频度的符号码对应着微弱信息,从而实现了大数据 特征的显性化。 进一步地,可对符号码S。-频度P。直方图计算改进赌化),随机性事件的 &化)>0.9,确定性事件的&(L)《0.1,从而可判定对应于符号码序列怯。}(也即对应于 十进制时间序列lx。})的某一广义事件是否具有随机性或确定性。【附图说明】[001引图1是某一广义事件的十进制时间序列lx。}; 图2是十进制时间序列{x。}转换为二进制符号序列{s。}的示意图; 图3是某股指变化{X。}周度图形及将其转换为二进制符号序列{s。}的示意图; 图4是二进制符号长度1 = 3时,某股指变化{X。}周度图形的符号码S。-频度P。 直方图; 图5是某四缸柴油机机身振动{X。}的示意图;[002引图6是二进制符号长度L= 6时,某四缸柴油机机身振动{X。}的符号码S。-频度P。直方图。【具体实施方式】 下面结合附图和具体的实施例对本专利技术技术方案作进一步的详细描述,W使本领 域的技术人员可W更好的理解本专利技术并能予W实施,但所举实施例不作为对本专利技术的限 定。,包括如下步骤: 步骤1 :获取事件的十进制时间序列{X。}并设置采样总长度; 步骤2:设置待编码的二进制符号长度L和取样时延I;[002引步骤3 :计算十进制时间序列{x。}的均值y; 步骤4 :Wy作为0和1两个符号域的划分线P。,设置阔值函曼 步骤5 :对{X。}遍施阔值函数,按照二进制符号长度L和取样时延I将十进制时 间序列lx。}的元素X。变换为二进制符号序列{s。}中的元素S。,构建二进制符号序列{s。}; 步骤6 :对{s。}进行十进制编码,将其转换为十进制符号码序列怯。}; 阳03引步骤7 :统计怯。}中每个符号码S。出现的频度P。,形成符号码S。-频度P。直方图 形。在符号码S。-频度P。图形中,某个符号码S。表征某一特定事件,其对应的频度P。是该 特定事件出现的强度。其中,大频度的符号码对应着强烈信息,小频度的符号码对应着微弱 信息,如果该频度P。数值相对其他符号码更大,则可判定该特定事件具有大数据特征,从而 实现了大数据特征的显性化。通过对应于某一特定事件(即"个体事件")的某个符号码S。 出现的频度P。,便可判定该特定事件是否具有经常性的大数据特征。 可W根据经验设置一个阔值,当某个符号码S。的频度P。大于设定的阔值时,判定 该特定事件具有大数据特征。 进一步的,可W根据符号码S。-频度P。直方图形计算"改进赌H, (L)",其计算公式 如式(1): 阳0对烘式(1)中:Nseq是具有非零频度的符号码总个数;i为符号码的个数序号;P1,L是长 度为L的第i个符号码的频度。 由于随机性事件的&(L)>0. 9,确定性事件的&(L)《0. 1,从而可判定对应于符 号码序列怯。}(也即对应于十进制时间序列lx。})的某一广义事件(即"整体事件")是否 具有随机性或确定性。[003引通过确定二进制符号序列{s。}的长度L和时延X、确定十进制时间序列{X。}的均 值y、设置阔值函数,能够将十进制时间序列lx。}变换为二进制符号序列{s。},继而对{s。} 作十进制编码将其转换为十进制符号码序列怯。}。其中,各参数优选为:采样总长度>50 点,L的取值范围是3~6,T的取值范围是1~3,需说明的是,T的取值范围1~3,是 指在符号域对S。每间隔1~3位数据取下一个元素。图2是对图1中对应某一广义事件 的十进制时间序列lx。},将其转换为二进制符号序列{s。}的过程,为表达简单清晰起见,取 符号长度L= 3、时延X= 1。 对经济领域的股市指数变化规律进行分析,探寻多空两方之间的关系。图3是经 济领域某股市指数变化lx。}周度巧天)图形,W及将其转换为二进制符号序列{s。}的过 程,为表达图3股指变动的密集性,取符号长度1 = 3、时延X=1,其对应的股市指数变化 lx。}的符号码S。-频度P。直方图如图4所示。 W40] 由图4可见,符号码"101"出现的频度最大化次),符号码"010"出现的频度次之 (4次)。在图3中,"101"表征股指深V反弹,"010"表征股指大A下跌。在一周中股市多 空双方博弈的激烈程度,尽由周度股指变化图形的符号码X。-频度P。直方图定量表达,多 方较之空方占有上风。而图4的改进赌Hg化)=0.68,说明周度股指变化过程中同时受到 确定性因素和随机性因素的作用。 对工程领域的柴油机振动进行分析,探寻有关影响因素的作用效果。图5是工程 领域某四缸柴油机机身振动lx。}的图形,为表达图5短暂大振动及其之间小振动大间隔的 特点,取符号长度L= 6、时延X= 3,其对应的四缸柴油机机身振动{X。}的符号码S。-频 度P。直方图如图6所示。 由图5可见,机身振动时间历程{X。}有几次短暂的大振动,运分别是在点火上死 点和下死点附近、排气上死点和下死点附近活塞受激励撞击缸套的结果,与柴油机负荷、活 塞-缸套间隙、活塞环胶结状态等均有关。在图6中,运些可能的影响因素可由机身振动的 符号码S。-频度P。直方图定量表达,其中有几个频度较大的十进制符号码。可将其转换为 符号长度L= 6的二进制符号,在图5中观察并找到其出现的时机,便可判定是哪个因本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105183836.html" title="一种基于符号特征获取事件大数据信息的算法原文来自X技术">基于符号特征获取事件大数据信息的算法</a>

【技术保护点】
一种基于符号特征获取事件大数据信息的算法,其特征在于,包括如下步骤:步骤1:获取事件的十进制时间序列{xn}并设置采样总长度;步骤2:设置待编码的二进制符号长度L和取样时延τ;步骤3:计算十进制时间序列{xn}的均值μ;步骤4:以μ作为0和1两个符号域的划分线P0,设置阈值函数sn=1,xn≥μ0,xn<μ;]]>步骤5:对{xn}遍施阈值函数,按照二进制符号长度L和取样时延τ将十进制时间序列{xn}的元素xn变换为二进制符号序列{sn}中的元素sn,构建二进制符号序列{sn};步骤6:对{sn}进行十进制编码,将其转换为十进制符号码序列{Sn};步骤7:统计{Sn}中每个符号码Sn出现的频度Pn,形成符号码Sn‐频度Pn直方图形。

【技术特征摘要】

【专利技术属性】
技术研发人员:张雨张弛
申请(专利权)人:南京工程学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1