当前位置: 首页 > 专利查询>燕山大学专利>正文

基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法制造技术

技术编号:30317845 阅读:23 留言:0更新日期:2021-10-09 23:20
本发明专利技术提供了一种基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,该方法包括:从所需要抽取出互联网论文数据的网站中抓取数据,进行页面清洗与预处理,基于MD5三叉树进行站内静态噪音去除,基于节点间相似度进行页间动态噪音去除,融合DBSCAN密度聚类算法对样本点数据进行密集区域与稀疏区域的划分,融合密度因素构建ACF树,修正密集区域与稀疏区域生成ACF森林,基于改进BIRCH算法进行字段单元构建,将得到的字段单元通过字段匹配与页面内容提取方法对字段单元和字段进行匹配,从而得到所需要提取的网页数据。本发明专利技术噪音去除技术更优,字段单元构建与字段匹配更高效,能有效解决互联网论文数据自动抽取问题。能有效解决互联网论文数据自动抽取问题。能有效解决互联网论文数据自动抽取问题。

【技术实现步骤摘要】
基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法


[0001]本专利技术属于数据采集
,特别是一种基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法。

技术介绍

[0002]自2012年以来,“大数据”一词已经广为人知,世界逐步开始了“大数据时代”。随着我国进入科技发展的上升期,信息流通速度加快,使得无论在学术界、政府还是企业中,都开始了一场将庞杂的数据资源进行量化的革命,最直观的结果就是ZB量级的到来。其中,信息量占比、信息密度最大的领域就是互联网。大量的互联网网页已经成为了如今规模最大的数据信息源,并为需求者提供了方便、快捷的信息获取平台。通过分析网页中的数据,得到独家信息,可以构建知识图谱、生成人物画像、进行精准推荐等任务,所以数据的获取显得尤为重要,尤其是在学术领域。
[0003]近年来,发表在各大期刊、会议上的论文数量呈几何式增长,通过大数据分析论文作者、所属机构、研究领域等之间的关系,有利于同等领域内学者的交流,促进研究的进一步发展。如今学术研究者极其重视的信息被称为“学术领域信息”,对学本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述方法包括以下步骤:S1、数据抓取:从所需要抽取出互联网论文数据的网站中抓取到页面的HTML代码,并将其存储在本地数据库;S2、页面清洗与预处理:删除页面注释、无用标签、空节点,合并文字内容,使得页面内有效文本内容均以行为单位居中于页面中央;S3、基于MD5三叉树进行站内静态噪音去除:将经过清洗与预处理的页面采用基于MD5三叉树的站内静态模板噪音清除算法,去除静态噪音数据;S4、基于节点间相似度进行页间动态噪音去除:将去除静态噪音的页面采用基于节点间相似度的页间噪音清除算法,去除动态噪音数据;S5、基于改进BIRCH算法进行字段单元构建:将进行降噪处理后的页面使用基于改进的BIRCH聚类算法构建字段单元,所述步骤S5具体包括以下步骤:S51、节点特征选择及向量化表示;S52、基于改进BIRCH聚类算法构建字段单元;S6、字段匹配:将得到的字段单元通过字段匹配与页面内容提取方法对字段单元和字段进行匹配,从而得到所需要提取的网页数据,所述步骤S6具体包括以下步骤:S61、定义Web页面字段名称;S62、定义字段匹配与页面内容提取方法:针对Web页面所表现出来的结构,基于规则的正则表达式进行字段匹配;针对部分字段规则呈现不明显且文本内容不存在任何语义的情况,基于数理统计进行字段匹配。2.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S3具体包括以下步骤:S31、通过使用网站页面的DOM树结构,对每一个页面定义一个三元组P=(Ω,Φ,η);其中:Ω=(P1,P2,

,P
n
)表示给定页面上DOM树的节点P
i
集合,i=1~n;Φ=(tag,attrib,text,path)表示当前DOM子树的根节点信息,tag表示节点的标签名称,attrib表示节点的属性信息,text表示节点下的文本内容,path表示节点的路径;η表示Φ所生成的唯一标识信息,将它称作节点的“指纹”,采用MD5算法计算得出;S32、将基于MD5三叉树模型数据结构表示为五元组(D,h,p,n,s);其中:D表示HTML文档解析成的DOM树结构,表示该DOM树按深度遍历得到的所有节点的MD5值的集合;h表示前缀节点,表示从集合开始到第一个相同MD5值之间的子集;p表示噪音节点;n表示两个对比页面中相同MD5值的部分;s为后缀节点,表示从n中最后一个MD5后到h中最后一个MD5之间的子集;在构建三叉树的过程中可以递归表示成(h
i
,p
i
,n
i
,s
i
),i表示三叉树的层数;S33、将相同站点下两个页面按照上述方法进行定义和计算并进行比较,可以得到静态噪音,并进行清除。3.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S4具体包括以下步骤:S41、计算链接节点即动态模板噪音初值,用符号D
i
表示:
其中:i表示第i个链接节点;FN
i
表示文本内数字的个数;TL
i
表示动态噪音文本字符的个数;S42、计算链接节点相似度;S43、计算其他链接节点对当前链接节点的总影响Z
i
:其中:W
i
表示第i个链接节点对当前链接节点的影响权重;S44、将经过上述操作后得到的最终结果即为当前节点的最终噪音值;S45、将节点的噪音值进行聚类。4.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S42具体包括以下步骤:S421、计算节点间距离,即从根节点开始到两节点的路径中,除去公共节点后剩余节点的数量;S422、节点间距离的倒数视为节点间的相似度值;S423、构建链接节点间相似度矩阵。所述步骤S45具体包括以下步骤:S451、将噪音值映射到指定区间内,得到最终的节点得分Score:其中:a和b分别表示映射到指定区间的边界值;x表示待输入的噪音值;x
min
和x
max
分别表示噪音值中的最小值和最大值,由于加入了基础节点,且噪音值均为正数,所以x
min
恒为0;S452、将得到的各链接节点的值后,采用CLARANS算法对节点进行聚类,固定聚类类别为2类,对应正文链接和噪音链接,从而去除动态模板噪音数据。5.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S52具体包括以下步骤:S521、基于样本点距离区域划分,融合DBSCAN密度聚类算法,对样本点数据进行密集区域与稀疏区域的划分;S522、融合密度因素构建ACF树,将各个区域的样本...

【专利技术属性】
技术研发人员:宫继兵张瀚允寇肖萌龚石山彭吉全
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1