【技术实现步骤摘要】
一种互联网开源软件数据动态索引和存储的方法
[0001]本专利技术涉及开源软件数据领域,尤其涉及一种互联网开源软件数据动态索引和存储的方法。
技术介绍
[0002]本专利技术所涉及的互联网开源软件数据是开源软件开发、运维过程中由相关支撑工具产生的各类数据,例如版本控制数据、缺陷追踪数据等。这些数据可以用来开展很多软件工程相关的研究,帮助提供软件开发运维的效率,以及软件产品的质量。
[0003]当前,互联网上的开源软件项目的数量呈现爆发式的增长,互联网开源软件数据在不断产生和积累。从软件工程的研究文献中可以看出,互联网开源软件数据使用的需求十分多样且在不断地变化,不同的数据使用者关注的开源项目和数据类型乃至更具体的数据范围不尽相同,大量数据的访问和下载代价也应当尽量减小,这些都是数据服务所面临的挑战。
[0004]目前,以zenodo(https://zenodo.org/)为代表的数据集共享平台包含了一些开源软件数据集。然而,他们都是用户手工上传的一些较小范围内的静态数据集,没有针对全网数据的多样、海量、持续 ...
【技术保护点】
【技术特征摘要】
1.一种互联网开源软件数据动态索引和存储的方法,其特征在于,包括以下步骤:针对互联网开源软件数据创建数据项,每个数据项由一个或多个数据单元组成,并添加如下数据描述:数据源HTTP链接、时效信息和身份认证信息,其中,数据源是数据项中数据单元的下载来源,时效信息是指数据下载存储后的有效期限,身份认证信息为访问数据单元时所需的用户名和密码,或者表示有效身份的字符串,一个数据项中所有数据单元共用相同的认证信息,如不需要则为空;进行数据项的初始化操作:进行数据源可访问性验证,如果数据源可访问,则基于数据源HTTP链接从数据源下载数据,并估算数据规模,根据数据源可访问性验证结果标记数据状态;当收到数据项下载请求时,进行数据源的可访问性验证,如果数据源可访问,则基于数据源HTTP链接从数据源下载数据,估算数据规模,然后将下载的数据发送给请求方,根据数据源可访问性验证结果标记数据状态;根据数据项的数据状态检查数据项时效信息,如果下载时间已经超过时效信息,则更新数据状态,删除本地的已下载数据后重新进行数据源的可访问性验证,如果数据源可访问,则基于数据源HTTP链接从数据源下载数据,估算数据规模,然后将下载的数据发送给请求方,并更新数据项的数据状态;根据请求计数周期内的计数结果更新数据项的数据状态。2.如权利要求1所述的方法,其特征在于,进行数据源可访问性验证的方法为:随机选取一定数量的数据单元,根据数据单元下载地址发起HTTP请求,HTTP请求中带有必要的认证信息,如果对任意一个数据单元的访问得到状态码为200的响应,则认为数据源可访问;如果对任何一个数据单元都的访问都没有得到状态码为200的响应,则认为数据源不可访问。3.如权利要求1所述的方法,其特征在于,估算数据规模的方法为:随机选取一定比例的数据单元,根据数据单元下载地址下载选取的数据单元,获取的数据单元的大小,计算平均大小;然后通过平均大小乘总的数据单元数量,得到估算的数据规模。4.如权利要求1所述的方法,其特征在于,创建数据项时,添加数据单元列表获取脚本;在...
【专利技术属性】
技术研发人员:朱家鑫,陈伟,吴国全,窦文生,魏峻,叶丹,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。