一种网页内容处理方法、装置及计算机可读存储介质制造方法及图纸

技术编号:19122151 阅读:26 留言:0更新日期:2018-10-10 05:14
本发明专利技术公开了一种网页内容处理方法,包括:对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;从识别的所有主题中,确定满足预设条件的主题;输出确定的主题对应节点的网页内容。本发明专利技术还同时公开了一种网页内容处理装置以及计算机可读存储介质。

【技术实现步骤摘要】
一种网页内容处理方法、装置及计算机可读存储介质
本专利技术涉及互联网
,尤其涉及一种网页内容处理方法、装置及计算机可读存储介质。
技术介绍
目前,随着数据量急剧增大以及数据挖掘技术的快速发展,在大数据开发中,从网页中提取特定主题的网页内容的需求越来越多,所述特定主题的网页内容为用于描述某一主题的信息数据,比如某个人物的简介信息。目前,在提取特定主题的网页内容时,按照网页页面的编辑格式来区分不同主题的网页内容。比如,可以将编辑格式或超文本标记语言(HTML,HyperTextMarkupLanguage)标签相同的网页内容视为同一主题的网页内容。但是,由于相同主题的网页内容可能采用不同的HTML语言描述,这对提取特定主题的网页内容,容易造成误提取、漏提取的情况发生。因此亟需找到一种准确提取特定主题的网页内容的技术方案。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种网页内容处理方法、装置及计算机可读存储介质,能够准确提取特定主题的网页内容。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种网页内容处理方法,所述方法包括:对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;从识别的所有主题中,确定满足预设条件的主题;输出确定的主题对应节点的网页内容。上述方案中,所述基于确定的位置,利用对应的分类方法,识别对应数据块的网页内容的主题,包括:针对确定的树状结构中的第一节点,对所述第一节点的文档信息进行分析,确定对应所述第一节点的主题;所述第一节点为终端节点;针对确定的树状结构中的第二节点,将所述第二节点对应的子节点的主题进行合并,得到对应所述第二节点的主题;所述第二节点为非终端节点。上述方案中,所述方法还包括:针对未知主题节点,采用以下方式之一识别未知主题节点的主题:基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题;基于节点在所述树状结构中的等级关系,识别未知主题节点的主题;其中,所述未知主题节点为第一节点中未识别出主题的节点。上述方案中,所述基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题,包括:利用所述树状结构,确定与未知主题节点相邻的至少一个节点;利用所述未知主题节点以及相邻的至少一个节点,构建马尔科夫链;根据所述未知主题节点在所述马尔科夫链中的位置,以及与未知主题节点相邻的节点的主题,利用预设主题模型,确定相邻的节点的主题转移至预设主题的概率;将概率最大的主题作为未知主题节点的主题。上述方案中,所述基于节点在所述树状结构中的等级关系,识别未知主题节点的主题,包括:利用所述树状结构,确定每个节点在所述树状结构中的等级关系;利用确定的等级关系,确定未知主题节点与其他节点的等级差距;将满足等级差距小于预设等级阈值对应的节点的主题作为所述未知主题节点的主题。上述方案中,所述输出确定的主题对应节点的网页内容,包括:确定与所述确定的主题对应节点所属的子树;获取所述子树的网页内容;输出并显示所述网页内容。本专利技术实施例提供一种网页内容处理装置,所述装置包括:解析模块,用于对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;识别模块,用于针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;确定模块,用于从识别的所有主题中,确定满足预设条件的主题;输出模块,用于输出确定的主题对应节点的网页内容。上述方案中,所述识别模块,还用于针对未知主题节点,采用以下方式之一识别未知主题节点的主题:基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题;基于节点在所述树状结构中的等级关系,识别未知主题节点的主题;其中,所述未知主题节点为第一节点中未识别出主题的节点。本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上面所述任一项网页内容处理方法的步骤。本专利技术实施例提供一种网页内容处理装置,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序;其中,所述处理器用于运行所述计算机程序时,执行上面所述任一项网页内容处理方法的步骤。本专利技术实施例提供的网页内容处理方法、装置及计算机可读存储介质,对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;从识别的所有主题中,确定满足预设条件的主题;输出确定的主题对应节点的网页内容。在本专利技术实施例中,基于节点在网页的树状结构中的位置,识别对应节点的主题,并输出满足预设条件的主题对应节点的网页内容,显然,能够准确提取特定主题的网页内容。附图说明图1为本专利技术实施例网页内容处理方法的实现流程示意图;图2为本专利技术实施例网页内容处理的具体实现流程示意图;图3为本专利技术实施例本专利技术实施例对网页解析得到树状结构的示意图;图4为本专利技术实施例在树状结构中标记各个节点主题的示意图;图5为本专利技术实施例构建的马尔科夫链的示意图;图6为本专利技术实施例网页内容处理装置的组成结构示意图一;图7为本专利技术实施例网页内容处理装置的组成结构示意图二。具体实施方式本专利技术实施例中,对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;从识别的所有主题中,确定满足预设条件的主题;输出确定的主题对应节点的网页内容。为了能够更加详尽地了解本专利技术实施例的特点与
技术实现思路
,下面结合附图对本专利技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本专利技术。如图1所示,详细说明本专利技术实施例网页内容处理方法,包括以下步骤:步骤101:对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块。实际应用时,可以基于HTML标签对网页进行解析。所述HTML标签包括table、div、p、span等等。步骤102:针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题。这里,节点在所述树状结构中对应的位置为:节点为终端节点,或者节点为非终端节点。在一实施例中,所述基于确定的位置,利用对应的分类方法,识别对应数据块的网页内容的主题,包括:针对确定的树状结构中的第一节点,对所述第一节点的文档信息进行分析,确定对应所述第一节点的主题;所述第一节点为终端节点;针对确定的树状结构中的第二节点,将所述第二节点对应的子节点的主题进行合并,得到对应所述第二节点的主题;所述第二节点为非终端节点。实际应用时,如果节点为终端节点,则利用朴素贝叶斯方法,对所述节点的文档信息进行分析,得到对应节点的主题;如果节点为非终端节点,则利用层本文档来自技高网
...
一种网页内容处理方法、装置及计算机可读存储介质

【技术保护点】
1.一种网页内容处理方法,其特征在于,所述方法包括:对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;从识别的所有主题中,确定满足预设条件的主题;输出确定的主题对应节点的网页内容。

【技术特征摘要】
1.一种网页内容处理方法,其特征在于,所述方法包括:对网页进行解析,得到网页的树状结构;树状结构中的每个节点分别对应一个数据块;针对每个节点,确定节点在所述树状结构中对应的位置;并基于确定的位置,利用对应的分类方法,识别对应节点的主题;从识别的所有主题中,确定满足预设条件的主题;输出确定的主题对应节点的网页内容。2.根据权利要求1所述的方法,其特征在于,所述基于确定的位置,利用对应的分类方法,识别对应数据块的网页内容的主题,包括:针对确定的树状结构中的第一节点,对所述第一节点的文档信息进行分析,确定对应所述第一节点的主题;所述第一节点为终端节点;针对确定的树状结构中的第二节点,将所述第二节点对应的子节点的主题进行合并,得到对应所述第二节点的主题;所述第二节点为非终端节点。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:针对未知主题节点,采用以下方式之一识别未知主题节点的主题:基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题;基于节点在所述树状结构中的等级关系,识别未知主题节点的主题;其中,所述未知主题节点为第一节点中未识别出主题的节点。4.根据权利要求3所述的方法,其特征在于,所述基于预设主题模型,根据与未知主题节点相邻的节点的主题,确定相邻的节点的主题转移至预设主题的概率,利用确定的概率,识别未知主题节点的主题,包括:利用所述树状结构,确定与未知主题节点相邻的至少一个节点;利用所述未知主题节点以及相邻的至少一个节点,构建马尔科夫链;根据所述未知主题节点在所述马尔科夫链中的位置,以及与未知主题节点相邻的节点的主题,利用预设主题模型,确定相邻的节点的主题转移至预设主题的概率;将概率最大的主题作为未知主题节点的主题。5...

【专利技术属性】
技术研发人员:周宝成
申请(专利权)人:咪咕文化科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1