一种数据包稀缺性评估方法及其系统技术方案

技术编号：14820421 阅读：144 留言：0更新日期：2017-03-15 13:10

本发明专利技术提供一种数据包稀缺性评估方法及其系统，该方法包括以下步骤：S100：获取与指定内容相关的多个相关数据包；S200：确定待评估数据包，并确定待评估数据包与其他数据包之间的相似度，选取与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包；S300：利用预设处理方法来确定待评估数据包的稀缺性。本发明专利技术通过对数据包的稀缺性进行评估，从而能够清楚数据包的质量，为数据的价值评估提供一定的参考依据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据领域，具体涉及一种数据包稀缺性评估方法及其系统。
技术介绍
数据交易目前处于行业初期，发展非常迅速，但缺少成熟的理论指导。将数据价值量化是一件非常困难的事，这是由数据的本质特征以及目前的商业环境所决定的。同时，这一工作还要受到众多客观因素的阻碍，如数据收集成本的精确评估，数据的贬值与生命周期变化，以及数据的附加价值等。随着数据产品交易的日益盛行，如何判断数据的价值，这不仅给数据销售商带来的困扰，也给买方带来了困扰。众所周知的观点是物以稀为贵，对于数据也不例外。越稀缺的数据，其价值也相应约大。数据信息资源的稀缺性分析分为两点，一是稀缺的根源来源，即数据信息资源的客观性价值；二是稀缺的表现形式，数据信息资源的有用性导致稀缺成为可能，数据信息资源的非同质性导致稀缺成为必然。因此，如何对数据的稀缺性进行评估，以更好的为数据交易市场提供更好的服务成为了亟待解决的课题。
技术实现思路
针对上述技术问题，本专利技术提供一种数据包稀缺性评估方法及其系统。本专利技术采用的技术方案为：本专利技术的实施例提供一种数据包稀缺性评估方法，包括：S100：获取与指定内容相关的多个相关数据包；S200：确定待评估数据包，并确定待评估数据包与其他数据包之间的相似度，选取与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包；S300：利用预设处理方法来确定待评估数据包的稀缺性，具体通过如下公式评估待评估数据包的稀缺性：其中，f为待评估数据包的稀缺性得分，取值范围为[0，1]；y为除待评估数据包以外的其他数据包中所有数据条数之和；x为待评估数据包中的数据条数。优选地...
一种数据包稀缺性评估方法及其系统

【技术保护点】
一种数据包稀缺性评估方法，其特征在于，包括：S100：获取与指定内容相关的多个相关数据包；S200：确定待评估数据包，并确定待评估数据包与其他数据包之间的相似度，选取与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包；S300：利用预设处理方法来确定待评估数据包的稀缺性，具体通过如下公式评估待评估数据包的稀缺性：f=2e-y/x1+e-y/x]]>其中，f为待评估数据包的稀缺性得分，取值范围为[0，1]；y为除待评估数据包以外的其他数据包中所有数据条数之和；x为待评估数据包中的数据条数。

【技术特征摘要】
1.一种数据包稀缺性评估方法，其特征在于，包括：S100：获取与指定内容相关的多个相关数据包；S200：确定待评估数据包，并确定待评估数据包与其他数据包之间的相似度，选取与待评估数据包之间的相似度高于预定阈值的数据包作为比较数据包；S300：利用预设处理方法来确定待评估数据包的稀缺性，具体通过如下公式评估待评估数据包的稀缺性：f=2e-y/x1+e-y/x]]>其中，f为待评估数据包的稀缺性得分，取值范围为[0，1]；y为除待评估数据包以外的其他数据包中所有数据条数之和；x为待评估数据包中的数据条数。2.根据权利要求1所述的方法，其特征在于，在步骤S200中利用文本相似度算法计算待评估数据包与其他数据包之间的相似度，具体包括：S210：将待评估数据包与比较数据包中的文本读入到R语言程序中，通过分词工具或用户定义的分词规则将每个数据包中的文本拆分成单个的词，确定特征词并统计每个特征词出现的词频，并建立文档词条矩阵；S220：基于以下公式计算待评估数据包与比较数据包之间的相似度：G=(N1×M1)+(N2×M2)+...+(Nm×Mm)N12+N22+...+Nm2×M12+M22+...+Mm2]]>其中，G为待评估数据包与其他数据包之间的相似度，范围为[0，1]；N1，N2…Nm和M1，M2…Mm分别为待评估数据包与其他数据包中的每个特征词出现的次数。3.根据权利要求2所述的方法，其特征在于，当G大于0.5时，表示待评估数据包与比较数据包具有相似性；当G大于0.85时，表示待评估数据包与比较数据包高度相似。4.根据权利要求1所述的方法，其特征在于，当f＝0时，表示待评估数据包中的数据不稀缺；当f＝1时，表示待评估数据包中的数据在其他比较数据包中不存在，非常稀缺。5.根据权利要求1所述的方法，其特征在于，通过爬取互联网多个数据平台的网络数据来获取与指定内容相关的多个相关数据...

【专利技术属性】
技术研发人员：张斌德，王军，孙玉权，
申请(专利权)人：国信优易数据有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人