一种动态数据的综合价值评估方法技术

技术编号:19023481 阅读:18 留言:0更新日期:2018-09-26 19:05
本发明专利技术提供涉及一种动态数据的综合价值评估方法,通过搭建数据源模块,构建检索模块,检索误差值评估,并对检索数据进行训练和价值评估,过程中同时针对最终的评估结果与之前得到的多个评估初值进行比对,并结合检索评估模块的误差值进行分析综合,更新出更优化的误差权值,不断提高评估结果的精度;本发明专利技术的动态数据综合评估分析系统,给数据分析系统采用模块化设计,通过使用检索模块方便用户能够直接便利的进行相关目标数据检索,使用多线程多接口模块,提升调取速度并且灵活应对动态实时数据的接入,并通过实时学习综合调整数据误差权值,尽可能的提升了数据处理的精确度。

【技术实现步骤摘要】
一种动态数据的综合价值评估方法
本专利技术涉及动态大数据分析领域,具体涉及一种动态数据的综合价值评估方法。
技术介绍
21世纪是一个高度信息化的社会,信息就是资源、信息就是机会,如果能够掌握并利用好有用的信息,就可以在竞争中获得优势。当前各类数据信息不断涌现,人们对数据信息的处理吸收应接不暇,诸多信息如何经过有效的利用形成对用户有重要参考价值的情报正日渐受到人们关注。例如股票信息,作为其中与金融财富非常相关的一种,从开始就注定得到人们的关注。在股票市场中,能够影响股价的因素多种多样,包括经济环境、国家政策、市场反馈、财务状况、心里因素等诸多方面,使得股票价格走势的特征难以准确把握。目前很多常用的方法是对历史数据进行分析和处理,挖掘数据之间的关联,找出变化规律并建立数学模型,在此基础上对股票价格走势进行评估,通过对信息的分析处理,得到对投资有益的投资客观情报。再比如专利信息情报,这里泛指与专利信息相关的所有情报,包括专利文献,专利公报,专利交易,专利诉讼等诸多内容。当前越来越多的企业开始关注到知识产权,尤其是专利的重要作用,对专利的价值也就显得尤为关注,然而专利价值在某种意义上却如同股票一样,其价值的影响维度众多,影响因子复杂,不仅仅在时效上,更在诸多的政策环境里面变化多端,如何能够找出变化规律并建立合理的模型进行评估当前还没有太好的应对办法。传统意义上人们处理信息数据的方法有两个极端倾向,一则通过关联规则的静态数据评估方法得到越来越多的研究和应用,通过极为复杂的关联算法进行相关度演算,但是多数仅仅停留在对历史静态数据的整理分析上,对历史数据与当前数据关联依据的必要性却常常没有深入的研究,造成分析情报的不客观,或者分析结果的滞后;但是股票市场或者专利市场却需要及时及客观的响应,如果不能适应瞬时万变的自由市场就不能认为这样的算法满足要求;另一则是通过比较快捷的梳理统计,对历史数据进行较为迅速的判断,然而这样的统计基础不够牢靠,一是因为大量的统计会消耗极大的计算能力以及存储能力,往往造成不必要的浪费,二是因为这种统计往往依靠数量较少的简单数据来进行动态分析,其结果的准确度以及可选择性都大打折扣。
技术实现思路
本专利技术为解决上述问题,提出一种动态数据综合价值评估方法,能够兼顾数据分析的时效性和精确性两个核心要求,既考虑运算的时间和效率也兼顾了算法的准确性和实时性。为此本专利技术提出一种动态数据的综合价值评估方法,其特征在于至少包括如下步骤:(1)搭建一数据存储模块,作为数据检索模块的前端源,需要整合足够全面和准确的数据库资源,对数据资源进行整合,可以通过系统检索模块提取和整合需要的数据信息,以便生成信息情报;(2)数据规范化预处理,对经检索获取的数据信息进行规范化处理,数据规范化包括但不限于对数据进行相关性分析和离散化降维处理;预处理过程后,将各相关分析和数据离散后的结果样本传输至各节点,准备训练;(3)数据训练,数据经过关联分析和离散预处理后,系统内部可以对数据进行均匀的筛选或者切割,通过分布式消息队列机制将数据发送至学习机模型节点进行数据训练;(4)权值评估,输入处理好后的评估流数据形成评估结果,将若干评估结果和评估结果对应的误差权值用加平均得到最终的评估值;同时针对最终的评估结果与之前得到的多个评估初值进行比对,并结合检索评估模块的误差值进行分析综合,更新出更优化的误差权值,以便于后续的评估,以此来不断提高评估结果的精度;(5)通过随机梯度下降算法求解评估结果和最终评估值,得到误差权值,并及时更新当前的误差权值;(6)输出最终评估值,给出当前专利数据价值评估的相关结果,依据实际市场的实测值和预估值进行比较分析,给出专利数据集的价值评估可视化的图示。优选的,步骤(1)中通过对检索结果的客观和完整的查全和查准判断,得出当前数据结果的误差值δ,如果误差值δ在预定的范围内,则进行下一步,如果误差值超出预定范围,重新执行和操作步骤(1),保留最终初步筛选出的误差值δ结果,保留其结果推送给后续,作为后续权值评估时的权值参考,该结果也可以作为调整数据库数据源的依据,用于对数据源优化的重要参考。优选的,为了使得多个并行节点的实时序列学习模型拥有更高的评估准确率,随机梯度下降算法结合加权平均的方法,动态调整集群中多个不同节点的评估输出结果的误差权值,评估准确率高的节点被赋予更高的权重,最终评估值通过各个节点的输出结果和误差权值加权平均求得:其中为第i个学习机节点的误差权值,fji为第i个学习机节点的输出值,j为评估值得第j个批次;预测权重通过如下误差函数E来计算:通过对误差函数求导,使用随机梯度下降法得到预测权重的更新满足下式:其中为学习机学习效率,本专利技术中优选其取值范围[0.05,0.25],据此来求得各相关因子的权值,并按照每个因子的权值梯度方向进行优化和更新,继而通过上述评估步骤可将可以获知的更多的相关数据进行接入,按照上述步骤进行操作得出最终反馈较好的评估结果和误差权值系数。优选的,在步骤(1)中的数据库搭建中,对股票数据,包括不同来源的数据,例如网页,新闻,图标等,通常采用内容抽取或爬取,内容抽取算法包括但不限于:基于正则表达式的网页抽取、基于CSS选择器的网页抽取、基于XPATH的网页抽取、基于机器学习的网页抽取。其中,所述基于正则表达式的网页抽取利用正则表达式进行网页抽取,是在html源码的基础上做字符串级别的检索。优选的,在步骤(1)中的数据检索模块中使用多线程有序索引分析,存储数据库中,优选的将数据以字符串为对象形式进行展开,索引分析技术的好处在于可以使得存储的效率提升输入输出的利用率将会得到改善。优选的,在多线程的处理形式中使用多接口模块,程序创建了大量的短生命周期的线程,汇聚成线程池,能够有效的减少和降低并发线程的数目,大幅提升服务器性能,其程序设计为:ClassMyThreadimplementsRunnable{Publicvoidrun(){//线程的操作内容}Publicstaticvoidmain(strring[]args){//启动一个线程(newThread(newMyThread())).start();}}优选的,使用查全查准来评估检索模块的性能特性,衡量检索主体与用户需要的相关密切度c,这样的密切度c可以用下式来表征:其中p为检索式的查全率,q为检索式的查准率,r是系统数据库的初始误差率评估;进一步说明p指代查全样本中被检出相关数据的量占系统所有相关数据量的占比,q指代被检出相关数据量占检出样本数据量的占比。优选的,所述的误差值δ=1-c,其中密切度0<c<1。本专利技术的有益效果为:提出一种完整的、安全的、高效的综合数据分析系统,给数据分析系统采用模块化设计,通过使用检索模块方便用户能够直接便利的进行相关目标数据检索,使用多线程多接口模块,提升调取速度并且灵活应对动态实时数据的接入,并通过实时学习综合调整数据误差权值,尽可能的提升了数据处理的精确度。附图说明图1是数据挖掘的一般处理步骤框架。图2是本专利技术动态数据评估处理的流程步骤。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与本文档来自技高网
...

【技术保护点】
1.一种动态数据的综合价值评估方法,其特征在于至少包括如下步骤:(1)搭建一数据存储模块,作为数据检索模块的所述前端源,需要整合足够全面和准确的数据库资源,对所述数据资源进行整合,可以通过系统检索模块提取和整合需要的数据信息,以便生成信息情报;(2)数据规范化预处理,对经检索获取的数据信息进行规范化处理,数据规范化包括但不限于对数据进行相关性分析和离散化降维处理;预处理过程后,将各相关分析和数据离散后的结果样本传输至各节点,准备训练;(3)数据训练,数据经过关联分析和离散预处理后,系统内部可以对数据进行均匀的筛选或者切割,通过分布式消息队列机制将数据发送至学习机模型节点进行数据训练;(4)权值评估,输入预处理好后的评估数据形成若干初步评估结果,将若干初步评估结果和评估结果对应的误差权值用加平均得到最终的评估值

【技术特征摘要】
1.一种动态数据的综合价值评估方法,其特征在于至少包括如下步骤:(1)搭建一数据存储模块,作为数据检索模块的所述前端源,需要整合足够全面和准确的数据库资源,对所述数据资源进行整合,可以通过系统检索模块提取和整合需要的数据信息,以便生成信息情报;(2)数据规范化预处理,对经检索获取的数据信息进行规范化处理,数据规范化包括但不限于对数据进行相关性分析和离散化降维处理;预处理过程后,将各相关分析和数据离散后的结果样本传输至各节点,准备训练;(3)数据训练,数据经过关联分析和离散预处理后,系统内部可以对数据进行均匀的筛选或者切割,通过分布式消息队列机制将数据发送至学习机模型节点进行数据训练;(4)权值评估,输入预处理好后的评估数据形成若干初步评估结果,将若干初步评估结果和评估结果对应的误差权值用加平均得到最终的评估值;同时针对最终的评估结果与之前得到的多个评估初值进行比对,并结合检索评估模块的误差值进行分析综合,更新出更优化的误差权值,以便于后续的评估,以此来不断提高评估结果的精度;(5)通过随机梯度下降算法求解评估结果和最终评估值,得到误差权值,并及时更新当前的误差权值;(6)输出最终评估值,给出当前专利数据价值评估的相关结果,依据实际市场的实测值和预估值进行比较分析,给出目标数据集的价值评估可视化的图示。2.如权利要求1所述的一种动态数据的综合价值评估方法,其特征在于,步骤(1)中通过对检索结果的客观和完整的查全和查准判断,得出当前数据结果的误差值δ,如果误差值δ在预定的范围内,则进行下一步,如果误差值超出预定范围,重新执行和操作步骤(1),保留最终初步筛选出的误差值δ结果,保留其结果推送给后续,作为后续权值评估时的权值参考,该结果也可以作为调整数据库数据源的依据,用于对数据源优化的重要参考。3.如权利要求1所述的一种动态数据的综合价值评估方法,其特征在于,为了使得多个并行节点的实时序列学习模型拥有更高的评估准确率,随机梯度下降算法结合加权平均的方法,动态调整集群中多个不同节点的评估输出结果的误差权值,评估准确率高的节点被赋予更高的权重,最终评估值通过各个节点的输出结果和误差权值加权平均求得:其中为第i个学习机节点的误差权值,fji为第i个学习机节点的输出值,j为评估值得第j个批次;预测权重通过如下误差函数E来计算:通过对误差函数求导,使用...

【专利技术属性】
技术研发人员:陈平
申请(专利权)人:浙江金华伽利略数据科技有限公司
类型:发明
国别省市:浙江,33

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1