一种文档版本集合的计算方法技术

技术编号:26890964 阅读:42 留言:0更新日期:2020-12-29 16:08
本发明专利技术公开了一种文档版本集合的计算方法,属于计算机和大数据应用交叉领域;本发明专利技术包括如下步骤:指定URL下载快照,以时间戳为文件名Fn,快照内容为文件内容Content存储;清除html标签和时光机的特殊标签,并将修改后的内容保存;计算Content的MD5值,并修改Content为MD5值、制表符和Fn;上传所有文档到Hadoop集群的HDFS文件系统;Map阶段,将Content拆分,使得key为MD5值,value为Fn,并发送key‑value;Reduce阶段,累加相同key的计数,将value的值Fn连接到container;对于同一个key,组织输出内容为key、count和container。

【技术实现步骤摘要】
一种文档版本集合的计算方法
一种文档版本集合的计算方法,是基于互联网时光机(waybackmachine)抓取数据的文档版本管理方法,属于计算机和大数据应用交叉领域。
技术介绍
公布在互联网的某URL(UniformResourceLocator,统一资源定位符)是说明文档,通常是该产品的最新版本;一般地,用户可以从时光机查看到某URL所存储的所有说明书文档,以时间点进行存储,即时光机爬虫抓取的时间。如果在过去十年内,该产品更新了许多版本,只要用户使用的不是该产品的最新版本,则无法在公布的说明文档URL上得到使用文档,通过时光机也无法准确得到某个版本的产品文档。MD5信息摘要算法(MD5Message-DigestAlgorithm)是一种密码散列函数,可以产生出一个128位的散列值,用于确保信息传输完整一致;将一个文件的所有二进制内容进行MD5计算,就得到文件的MD5值,其特点是,即使只有一个字节被修改,修改前后文件的MD5值也会发生变化;许多语言库函数支持MD5计算,比如PHP语言调用函数MD5(文件名)可以计算得到文件的M本文档来自技高网...

【技术保护点】
1.一种文档版本集合的计算方法,其特征在于,包括如下步骤:/nS1、指定产品文档URL,下载对应时间段的所有快照,以时间戳为文件名变量Fn,快照内容为文件内容Content存储;/nS2.判断Content是否需大幅度修改,若无修改需单独保存即保存文档内容,否则进行下一步;/nS3.清除html标签和时光机的特殊标签,并将修改后的内容保存为文件内容Content;/nS4.计算Content的MD5值,将MD5值和Fn以制表符相隔,并以回车符结束,作为一行内容保存为文件内容Content;/nS5.将上述步骤处理完的所有文档,上传到Hadoop集群的HDFS文件系统;/nS6.Map阶段,一个...

【技术特征摘要】
1.一种文档版本集合的计算方法,其特征在于,包括如下步骤:
S1、指定产品文档URL,下载对应时间段的所有快照,以时间戳为文件名变量Fn,快照内容为文件内容Content存储;
S2.判断Content是否需大幅度修改,若无修改需单独保存即保存文档内容,否则进行下一步;
S3.清除html标签和时光机的特殊标签,并将修改后的内容保存为文件内容Content;
S4.计算Content的MD5值,将MD5值和Fn以制表符相隔,并以回车符结束,作为一行内容保存为文件内容Content;
S5.将上述步骤处理完的所有文档,上传到Hadoop集群的HDFS文件系统;
S6.Map阶段,一个文档作为一个Map任务处理,以制表符为令牌,将Content拆分,使得key为MD5值,value为Fn,并发送key-value;
S7.Reduce阶段,key相同的Map任务会被同一个Reduce收集,对于同一个key,每收集一个value,则计数器count加1,value的值Fn被累加到字符串container,并以空格分隔;其中,key是集合的元素,所有key的Fn数量的和,等于本次任务上传的所有文档数量;<...

【专利技术属性】
技术研发人员:曾祥宇王君
申请(专利权)人:四川工商学院
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1