语义大数据驱动的自定义网页主题提取方法技术

技术编号：40509484 阅读：5 留言：0更新日期：2024-03-01 13:24

本申请的语义大数据驱动的自定义网页主题提取方法，对网页资源采用简洁高效的构造树生成算法，构造网页层次模型。在层次化的网页构造树基础上，对网页内容进行噪声块识别和去噪，去除了网页表达形式和主题噪声，保留主题内容层次和内容元素。在最核心的主题提取模块，构建了词条含义近似度算法、结点语义相关度的算法、结点语义模型构造算法和主题结点集的提取算法。在用户给定自定义主题的情况下，剔除网页内繁杂的网页元素、目不暇接的推广信息和用户不关心的主题内容，从海量互联网原始网页中提取所需的自定义主题内容，提高了阅读网页的效率，直接提取自己需要阅读的内容，算法效率高，具有较好的稳定性、鲁棒性与实用性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及一种大数据自定义网页主题提取方法，特别涉及一种语义大数据驱动的自定义网页主题提取方法，属于自定义网络主题提取。

技术介绍

1、互联网变革时代，人们获取信息的方式受其影响颇大。面对互联网如此巨大的信息库，人们所能获取信息的体量也愈加庞大，但随着信息量的极速增长，针对性获取信息并维护的难度也变得更大。此时，海量的网络数据源成了甜蜜的烦恼。为了更好的利用互联网信息量大的优势，并有效规避干扰信息，结合信息提取技术和互联网信息构造自身的特点，进行互联网信息提取非常重要。

2、相比传统信息提取技术，互联网信息提取有以下区别：(1)数据源异构，传统信息提取的数据源通常为数据仓库，所存储数据较为规整。互联网信息提取的对象为整个互联网，不仅数据集的体量更加庞大，从存储环境来说，互联网信息的存储是分布式的，存放在全球各地的服务器，服务器硬件上如操作系统，数据库服务器等都有差异；从数据格式来说，不同服务器的信息组织方式也不尽相同。(2)数据半构造化，传统文本是一种无构造的序列化存储方式，而互联网信息的载体为html编码，格式非常繁杂，编码模型不够严谨统一，且含有大量标签噪声。相对于传统文本数据的无构造性，互联网信息含有一定的层次构造，其数据呈现半构造化状。传统信息提取技术所处理的对象是文本内容本身，主要还是利用自然语言处理的相关技术对文本信息提取。而互联网信息提取由于以上特征，无法套用传统信息提取技术。对于数据源的获取集成、噪声信息的容错和信息半构造化的利用都要进一步研究。

3、网页信息提取可以从繁杂的互联网信息中提

4、现有技术的自定义网页主题提取需要解决的问题和本申请关键技术难点包括：

5、(1)面对互联网巨大信息库的信息量极速增长，针对性获取信息并维护的难度也变得更大，现有技术无法有效利用互联网信息量大的优势，无法有效规避干扰信息，缺少结合信息提取技术和互联网信息构造自身的特点进行互联网信息提取的方法，直接导致用户获取的信息并不是有效信息，读者不想看到的干扰信息也在不断增加，用户获取所需内容的难度也不断增加。比如网页中的广告推广和导航栏等噪声块对于用户阅读体验的影响；论坛里会有大量灌水信息，评论所提及的信息并非都有价值；微博等海量主题的网页里并非所有内容都是读者关心的信息，给人们针对性的阅读带来了不少障碍，缺少能够根据用户自定义信息进行网页主题有效提取的方法。

6、(2)现实生活中的比价应用、舆情分析系统、推荐算法、信息情报系统等，都离不开网页信息提取的底层支持，但现有技术的网页信息提取系统，无法将结点文本作为网页的本底内容单位，缺少结合结点文本的语义关联性和主题结点构成主题内容的构造层次规律，无法构建出结点语义模型对网页内容进行分析操作，语义分析仅应用于非构造文本，无法对网页半构造化文本进行语义分析和主题提取。缺少差异性词义匹配进行结点语义关联度的计算，语义噪声大，无法准确的反映出结点文本和主题含义关联程度。无法剔除网页内繁杂的网页元素、目不暇接的推广信息和用户不关心的主题内容，无法让用户根据需求自定义主题，直接提取自己需要阅读的内容，用户难以根据阅读需求自定义主题词或主题句，基于语义相关性在互联网中提取用户所需的主题，无法直接将读者所需的信息以最简洁的方式呈现出来。

7、(3)现有技术无法根据用户自定义的需求从互联网中获取和需求相关的主题内容，一是无法生成网页构造树，缺少对所获取网页进行规范化处理，缺少噪声信息预过滤，无法去除网页表达形式噪声并依据网页层次生成构造树模型；二是缺少主题噪声块摘除，缺少利用调节枝叶匹配算法识别疑似噪声区域；无法通过计算链接构造平衡对疑似簇进行筛选；三是缺少语义大数据关联度的网页主题提取，无法结合结点文本的语义相关性和主题结点构成主题内容的构造层次规律，缺少构建出结点语义模型对网页内容进行解析，无法定义词条近似度并实现词条近似度算法；无法构建结点语义相关度并实现差异性词义匹配算法降低语义噪声的影响，不能反映结点文本和自定义主题的含义相关程度，无法构造结点语义模型；无法剪枝遍历主题结点集实现主题提取，用户自定义网页主题提取的准确率和效率都比较低。

技术实现思路

1、本申请提出了语义大数据驱动的自定义网页主题提取方法，对于从互联网提取的网页资源，采用简洁高效的构造树生成算法，构造网页层次模型。在层次化的网页构造树基础上，对网页内容进行噪声块识别和去噪，去除了网页表达形式和主题噪声，保留主题内容层次和内容元素。在最核心的主题提取模块，构建了词条含义近似度算法、结点语义相关度的算法、结点语义模型构造算法和主题结点集的提取算法。实现在用户给定自定义主题的情况下，从海量互联网原始网页中提取所需的自定义主题内容。提高了人们在阅读网页时的效率，剔除了网页内繁杂的网页元素、目不暇接的推广信息和用户不关心的主题内容，让用户根据需求自定义主题，直接提取自己需要阅读的内容，算法效率较高，具有较好的稳定性、鲁棒性与实用性。

2、为实现以上技术效果，本申请所采用的技术方案如下：

3、语义大数据驱动的自定义网页主题提取方法，根据用户自定义的需求从互联网中获取和需求相关的主题内容：第1部分为网页库获取，从海量的互联网资源中获取待提取网页数据；第2部分将获取的网页库进行构造化计算，生成半构造化的网页构造树内容载体；第3部分对网页构造树进一步规整，利用调节枝叶匹配和链接构造平衡算法对网页中广告、导航噪声块进行摘除；第4步为主题提取，将树结点作为本底内容对象，通过分词、词语近似度计算、结点关联度计算、结点语义模型构造和主题结点集提取，根据用户自定义需求对网页主题进行提取，封装为目标主题集呈现给用户；

4、1)生成网页构造树：首先对所获取网页进行规范化处理，使网页编码符合规整；然后进行噪声信息预过滤，去除网页表达形式噪声；之后依据网页层次生成构造树模型；

5、2)主题噪声块摘除，包括：主题噪声块定义与特征、噪声块识别算法、调节枝叶匹配模型、单结点内噪声块识别算法、链接构造平衡筛选可疑簇、构造树噪声块摘除，在层次化的网页构造树基础上，利用调节枝叶匹配算法识别疑似噪声区域；通过计算链接构造平衡对疑似簇进行筛选，摘除经确认的噪声块，使构造树只保留主题内容层次和主题内容元素；

6、3)语义大数据关联度的网页主题提取：将结点文本作为网页的本底内容本文档来自技高网...

【技术保护点】

1.语义大数据驱动的自定义网页主题提取方法，其特征在于，根据用户自定义的需求从互联网中获取和需求相关的主题内容：第1部分为网页库获取，从海量的互联网资源中获取待提取网页数据；第2部分将获取的网页库进行构造化计算，生成半构造化的网页构造树内容载体；第3部分对网页构造树进一步规整，利用调节枝叶匹配和链接构造平衡算法对网页中广告、导航噪声块进行摘除；第4步为主题提取，将树结点作为本底内容对象，通过分词、词语近似度计算、结点关联度计算、结点语义模型构造和主题结点集提取，根据用户自定义需求对网页主题进行提取，封装为目标主题集呈现给用户；

2.根据权利要求1所述语义大数据驱动的自定义网页主题提取方法，其特征在于，主题噪声块定义与特征：对于提取网页主题的需求，与网页主题内容无关的所有网页元素都是主题噪声，网页构造树是网页的载体，对于主题噪声块的识别，依据其在构造树中所对应结点簇的特征，其特征如下：1)同一噪声块内噪声结点在树中父结点相同；2)同一噪声块的噪声结点在树中的结点相邻；3)噪声块的组成结点中包含大量链接；4)噪声的组成结点中包含结点构造具有极大相似性；

3.根

4.根据权利要求1所述语义大数据驱动的自定义网页主题提取方法，其特征在于，调节枝叶匹配模型：鉴于噪声块构造特征禁止跨层操作的枝叶匹配，识别两棵结点簇中标签结点的最大匹配域，严格按照结点簇中结点顺序进行匹配比较，禁止结点间交叉层次和替换后再比较；

5.根据权利要求1所述语义大数据驱动的自定义网页主题提取方法，其特征在于，单结点内噪声块识别算法：从给定结点中，识别出其次层结点中所包含的噪声结点，在同一结点下，可能包含不止一个噪声块，每个噪声块包含至少两个相邻且相似的结点，严格按照构造树中结点的先后顺序进行匹配，所判定父结点的次层子结点中，每N个相邻且近似度满足一定条件的结点划分为一个可疑块，对于可疑块再利用链接构造平衡判断是否为噪声块；以给定结点作为子结点，遍历其所有子结点，识别出其中噪声区域，并按照区域进行分开存放。

6.根据权利要求1所述语义大数据驱动的自定义网页主题提取方法，其特征在于，链接构造平衡筛选可疑簇：通过调节枝叶匹配在构造树识别可疑簇，其识别过程利用噪声块特征中的以下几点：1)同一噪声块内噪声结点在树中父结点相同；2)同一噪声块的噪声结点在树中的结点相邻；3)噪声块中的结点在标签构造上具有极大相似性；

7.根据权利要求1所述语义大数据驱动的自定义网页主题提取方法，其特征在于，词条近似度算法：对词语含义近似度进行量化，量化的数值标准规整在值域[0，1]之间，值越接近1表示词语间的意思越接近，越趋向0则差别越大，语义完全相同和完全不可相互替换时，语义近似度则分别取到1和0两个最值，在基于同义词词林的词语相似度算法中，通过在同义词林构造树中考量词语义项所处的位置，比对各义项结点间的语义距离来量化词语的语义相似度，语义距离越近则语义近似度愈大，语义距离越远则近似度越小，词语与自身本身的距离为0，近似度最大，完全不相干的词条之间不可达，相似度趋近为0；

8.根据权利要求1所述语义大数据驱动的自定义网页主题提取方法，其特征在于，结点语义关联度：

9.根据权利要求1所述语义大数据驱动的自定义网页主题提取方法，其特征在于，后序构造结点语义模型：以MAP集合构建构造树结点与结点关联度的映射关系，MAP集合KEY值为结点，VALUE值为对应语义关联权重，此映射集合和原构造树共同表示结点语义模型，从叶子结点向上构造结点语义模型，利用后序遍历构造结点语义模型，保证每个结点在计算语义关联度时，其子结点都已完成计算且存放在结点语义模型中；

10.根据权利要求1所述语义大数据驱动的自定义网页主题提取方法，其特征在于，剪枝遍历结点语义模型提取主题：在结点语义模型的构造中，上层结点与深层结点，为包含关系，若上层语义结点符合需求，则语义结点包含的所有语义簇均为所需主题，无需重复验证提取；若上层语义结点不符合要求，则向其深层继续验证是否符合提取要求；

...

【技术特征摘要】

3.根据权利要求1所述语义大数据驱动的自定义网页主题提取方法，其特征在于，噪声块识别算法：主题噪声块的识别是根据其特征进行区域搜寻的过程，搜寻过程分成两个阶段：(1)判定可疑区域(2)确定噪声块；

5.根据权利要求1所述语义大数据驱动的自定义网页主题提取方法，其特征在于，单结点内噪声块识别算法：从给定结点中，识别出其次层结点中所包含的噪声结点，在同一结点下，可能包含不止一个噪声块，每个噪声块包含至少两个相邻且相似的结点，严格按照构造树中结点的先后顺序进行匹配，所判定父结点的次层子结点中，每n个相邻且近似度满足一定条件的结点划分为一个可疑块，对于可疑块再利...

【专利技术属性】
技术研发人员：陈阳阳，邓一，
申请(专利权)人：陈阳阳，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人