【技术实现步骤摘要】
适用于文化科技融合领域时间序列数据的特征提取方法
本专利技术涉及适用于文化科技融合领域时间序列数据的特征提取方法。
技术介绍
随着我国的科技的进步以及经济发展战略的调整,发展以文化为核心、以科技为手段的新兴行业和企业正式成为现在各地极力倡导的大形势。一方面,一般的企业在预测自己发展热点的时候主要利用的是财务数据或者对用户进行行为建模,而没有特别关注对于时间序列数据的多角度挖掘;另一方面,一般的时间序列数据挖掘由于不具备文化科技融合数据的特点,也没有从将时间序列数据从时间粒度的分类上进行数据挖掘。对于一个行业或者企业而言,时间序列数据所携带的信息量巨大且对于企业制定发展战略尤为重要,充分挖掘时间序列数据所携带的信息是许多人都在极力探索的目标。一方面,文化科技融合领域内的时间序列数据有独特的特征:不同时间粒度的时间序列数据带有不同的重要信息、样本数据少;另一方面,常见的时间序列特征挖掘算法只从单一角度挖掘时间序列的信息,不能完全的获得数据的价值。这些限制对于想要充分挖掘时间数据进而获得决策支撑的企业十分不利;因而 ...
【技术保护点】
1.适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于,包括以下步骤:/n第一步:从目标数据库获得时间序列数据,将序列以数据类型分类,得文本数据和数值数据;/n第二步:数值数据以时间粒度分类,得宏观时间序列数据和微观时间序列数据;宏观数据标准化后,计算样本与行业标准数据的相似度,将归一化后的相似度作为D-S证据理论的输入进行证据融合,得类特征;/n第三步:设已获得标准时间序列的最佳shapelet集合,计算微观数据样本与各shapelet的距离,得趋势特征;/n第四步:文本数据,先用词袋模型获得高频词汇集,再使用改进的TF-IDF对该词汇集进行二次过滤,获得热点词 ...
【技术特征摘要】
1.适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于,包括以下步骤:
第一步:从目标数据库获得时间序列数据,将序列以数据类型分类,得文本数据和数值数据;
第二步:数值数据以时间粒度分类,得宏观时间序列数据和微观时间序列数据;宏观数据标准化后,计算样本与行业标准数据的相似度,将归一化后的相似度作为D-S证据理论的输入进行证据融合,得类特征;
第三步:设已获得标准时间序列的最佳shapelet集合,计算微观数据样本与各shapelet的距离,得趋势特征;
第四步:文本数据,先用词袋模型获得高频词汇集,再使用改进的TF-IDF对该词汇集进行二次过滤,获得热点词汇;
第五步:若有新数据则用滑动窗口重新执行步骤1-4;无新数据则停止。
2.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于,所述第一步中,具体方法如下:从企业数据库或者相应政府的公共数据库获取时间序列数据;将数据根据数据类型进行分类,分为数值型时间序列数据和文本型时间序列数据;针对新来的数据则利用滑动窗口原理形成新的分类数据源。
3.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于,第二步中,具体的方法如下:将数值型时间序列数据数据根据时间粒度进行分类,分成大时间粒度的宏观数据Tg、以及小时间粒度的微观数据Ts;其中,宏观数据包括多个来源的时间序列数据,即用从不同角度反映企业经营状况的财务数据和市场数据,微观数据只包含一类时间序列数据,即衡量企业经营能力的最主要指标数据。
...
【专利技术属性】
技术研发人员:郑培清,孙莉,刘瀚炜,
申请(专利权)人:江苏思远集成电路与智能技术研究院有限公司,北京行言柏尚科技股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。