一种数据包稀缺性评估方法及其系统技术方案

技术编号:14820421 阅读:144 留言:0更新日期:2017-03-15 13:10
本发明专利技术提供一种数据包稀缺性评估方法及其系统,该方法包括以下步骤:S100:获取与指定内容相关的多个相关数据包;S200:确定待评估数据包,并确定待评估数据包与其他数据包之间的相似度,选取与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包;S300:利用预设处理方法来确定待评估数据包的稀缺性。本发明专利技术通过对数据包的稀缺性进行评估,从而能够清楚数据包的质量,为数据的价值评估提供一定的参考依据。

【技术实现步骤摘要】

本专利技术涉及大数据领域,具体涉及一种数据包稀缺性评估方法及其系统
技术介绍
数据交易目前处于行业初期,发展非常迅速,但缺少成熟的理论指导。将数据价值量化是一件非常困难的事,这是由数据的本质特征以及目前的商业环境所决定的。同时,这一工作还要受到众多客观因素的阻碍,如数据收集成本的精确评估,数据的贬值与生命周期变化,以及数据的附加价值等。随着数据产品交易的日益盛行,如何判断数据的价值,这不仅给数据销售商带来的困扰,也给买方带来了困扰。众所周知的观点是物以稀为贵,对于数据也不例外。越稀缺的数据,其价值也相应约大。数据信息资源的稀缺性分析分为两点,一是稀缺的根源来源,即数据信息资源的客观性价值;二是稀缺的表现形式,数据信息资源的有用性导致稀缺成为可能,数据信息资源的非同质性导致稀缺成为必然。因此,如何对数据的稀缺性进行评估,以更好的为数据交易市场提供更好的服务成为了亟待解决的课题。
技术实现思路
针对上述技术问题,本专利技术提供一种数据包稀缺性评估方法及其系统。本专利技术采用的技术方案为:本专利技术的实施例提供一种数据包稀缺性评估方法,包括:S100:获取与指定内容相关的多个相关数据包;S200:确定待评估数据包,并确定待评估数据包与其他数据包之间的相似度,选取与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包;S300:利用预设处理方法来确定待评估数据包的稀缺性,具体通过如下公式评估待评估数据包的稀缺性:其中,f为待评估数据包的稀缺性得分,取值范围为[0,1];y为除待评估数据包以外的其他数据包中所有数据条数之和;x为待评估数据包中的数据条数。优选地,在步骤S200中利用文本相似度算法计算待评估数据包与其他数据包之间的相似度,具体包括:S210:将待评估数据包与比较数据包中的文本读入到R语言程序中,通过分词工具或用户定义的分词规则将每个数据包中的文本拆分成单个的词,确定特征词并统计每个特征词出现的词频,并建立文档词条矩阵;S220:基于以下公式计算待评估数据包与比较数据包之间的相似度:其中,G为待评估数据包与其他数据包之间的相似度,范围为[0,1];N1,N2…Nm和M1,M2…Mm分别为待评估数据包与其他数据包中的每个特征词出现的次数。优选地,当G大于0.5时,表示待评估数据包与比较数据包具有相似性;当G大于0.85时,表示待评估数据包与比较数据包高度相似。优选地,当f=0时,表示待评估数据包中的数据不稀缺;当f=1时,表示待评估数据包中的数据在其他比较数据包中不存在,非常稀缺。优选地,通过爬取互联网多个数据平台的网络数据来获取与指定内容相关的多个相关数据包。本专利技术的另一实施例提供一种数据包稀缺性评估系统,包括:数据获取模块,获取与指定内容相关的多个相关数据包;相似度评估模块,确定待评估数据包,并确定待评估数据包与其他数据包之间的相似度,选取与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包;稀缺性评估模块,利用预设处理方法来确定待评估数据包的稀缺性,具体通过如下公式评估待评估数据包的稀缺性:其中,f为待评估数据包的稀缺性得分,取值范围为[0,1];y为除待评估数据包以外的其他数据包中所有数据条数之和;x为待评估数据包中的数据条数。可选地,所述相似度评估模块包括:特征提取单元,通过关键词提取工具或者自定义确定待评估数据包与比较数据包中的文本之间的特征词;词条文档矩阵建立单元,将待评估数据包与比较数据包中的文本读入到R语言程序中,通过分词工具或用户定义的分词规则将每个数据包中的文本拆分成单个的词,统计每个特征词出现的词频,并建立文档词条矩阵;相似度计算单元,基于以下公式计算待评估数据包与比较数据包之间的相似度:其中,G为待评估数据包与其他数据包之间的相似度,范围为[0,1];N1,N2…Nm和M1,M2…Mm分别为待评估数据包与其他数据包中的每个特征词出现的次数。可选地,所述预定阈值为0.5,当G大于0.5时,表示待评估数据包与比较数据包具有相似性;当G大于0.85时,表示待评估数据包与比较数据包高度相似。可选地,当f=0时,表示待评估数据包中的数据不稀缺;当f=1时,表示待评估数据包中的数据在其他比较数据包中不存在,非常稀缺。可选地,所述数据获取模块通过爬取互联网多个数据平台的网络数据来获取与指定内容相关的多个相关数据包。本专利技术通过对数据包的稀缺性进行评估,从而能够清楚数据包的质量,为数据的价值评估提供一定的参考依据。附图说明图1为本专利技术实施例提供的数据包稀缺性评估方法的流程示意图;图2为本专利技术实施例提供的数据包稀缺性评估系统的结构示意图。具体实施方式以下,结合附图对本专利技术的具体实施例进行描述。【实施例1】数据包稀缺性评估方法图1为本专利技术实施例提供的数据包稀缺性评估方法的流程示意图。如图1所示,本实施例提供的数据包稀缺性评估方法,包括:S100:获取相关数据包具体地,可基于指定内容,利用Python语言编程爬取各个大数据交易网站上的相关数据包,并且将爬取的数据存放在关系型数据库MySQL数据库中,数据包里面可包含各种数据类型的的文件,如JSON,图片,视频,音频等等文件。爬取的具体过程为:用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器HTML、JS、CSS等文件,浏览器解析出来。因此,用户看到的网页实质是由HTML代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些HTML代码,实现对图片、文字、以及上传附件等资源的爬取,这样就可以对各大数据交易的网站针对数据包说明等相关的内容进行爬取。如此,可获取包含相同主体内容的多个相关数据包。当然,也可以将在评估操作前选取已经获得的数据包来进行评估,而不是在评估操作时进行实时爬取。S200:计算数据包之间的相似度,选取相似度超过预定阈值的数据包具体地,可根据实际情况来确定一个待评估数据包,例如,需要对某数据提供平台的数据的稀缺性进行评估,可将该数据提供平台提供的数据包指定为待评估数据包,然后可利用文本相似度算法计算所述待评估数据包与其他数据包之间的相似度,选取相似度超过预定阈值的数据包,作为比较数据包。步骤S200可具体包括:S210:将数据包中的文本读入到R语言程序中,通过分词工具或用户定义的分词规则将所述相关数据包中的每个数据包中的文本拆分成单个的词,确定特征词并统计每个特征词出现的词频,并建立文档词条矩阵,例如,关于三个进出口产品的数据包,建立的词条文档矩阵可如下表1所示:表1:词条文档矩阵特征报关出口口岸省市数量原产种类金额规格文本1241262270文本2154382251文本3314018723其中表1中的数字表示对应文本中出现的特征词的次数。S230:计算数据包之间的相似度可利用下述公式1来计算两个数据包之间的相似度:【公式1】其中,G为两个数据包之间的相似度,范围为[0,1];N1,N2…Nm和M1,M2…Mm分别为比较的两个数据包中的每个特征词出现的次数。在本实施例中,预定阈值可为0.5,即当G大于0.5时,表示两个数据包相似;当G大于0.85时,表示两个数据包高度相似。以表1为例,文本1中出现的字为:C1、C2、C3、C4……Cn;这些字出现的次数分别为:N1本文档来自技高网...
一种数据包稀缺性评估方法及其系统

【技术保护点】
一种数据包稀缺性评估方法,其特征在于,包括:S100:获取与指定内容相关的多个相关数据包;S200:确定待评估数据包,并确定待评估数据包与其他数据包之间的相似度,选取与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包;S300:利用预设处理方法来确定待评估数据包的稀缺性,具体通过如下公式评估待评估数据包的稀缺性:f=2e-y/x1+e-y/x]]>其中,f为待评估数据包的稀缺性得分,取值范围为[0,1];y为除待评估数据包以外的其他数据包中所有数据条数之和;x为待评估数据包中的数据条数。

【技术特征摘要】
1.一种数据包稀缺性评估方法,其特征在于,包括:S100:获取与指定内容相关的多个相关数据包;S200:确定待评估数据包,并确定待评估数据包与其他数据包之间的相似度,选取与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包;S300:利用预设处理方法来确定待评估数据包的稀缺性,具体通过如下公式评估待评估数据包的稀缺性:f=2e-y/x1+e-y/x]]>其中,f为待评估数据包的稀缺性得分,取值范围为[0,1];y为除待评估数据包以外的其他数据包中所有数据条数之和;x为待评估数据包中的数据条数。2.根据权利要求1所述的方法,其特征在于,在步骤S200中利用文本相似度算法计算待评估数据包与其他数据包之间的相似度,具体包括:S210:将待评估数据包与比较数据包中的文本读入到R语言程序中,通过分词工具或用户定义的分词规则将每个数据包中的文本拆分成单个的词,确定特征词并统计每个特征词出现的词频,并建立文档词条矩阵;S220:基于以下公式计算待评估数据包与比较数据包之间的相似度:G=(N1×M1)+(N2×M2)+...+(Nm×Mm)N12+N22+...+Nm2×M12+M22+...+Mm2]]>其中,G为待评估数据包与其他数据包之间的相似度,范围为[0,1];N1,N2…Nm和M1,M2…Mm分别为待评估数据包与其他数据包中的每个特征词出现的次数。3.根据权利要求2所述的方法,其特征在于,当G大于0.5时,表示待评估数据包与比较数据包具有相似性;当G大于0.85时,表示待评估数据包与比较数据包高度相似。4.根据权利要求1所述的方法,其特征在于,当f=0时,表示待评估数据包中的数据不稀缺;当f=1时,表示待评估数据包中的数据在其他比较数据包中不存在,非常稀缺。5.根据权利要求1所述的方法,其特征在于,通过爬取互联网多个数据平台的网络数据来获取与指定内容相关的多个相关数据...

【专利技术属性】
技术研发人员:张斌德王军孙玉权
申请(专利权)人:国信优易数据有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1