一种网页特征提取方法和装置制造方法及图纸

技术编号:19098593 阅读:26 留言:0更新日期:2018-10-03 02:40
本发明专利技术实施例公开了一种网页特征提取方法和装置,根据网页信息的位置架构将目标网页分为多个文档部分;分别对多个文档部分进行分词处理,对分词处理结果进行统计,获得与多个文档部分对应的多个集合,根据第一集合中与特征词对应的次数确定基础位置权重值,第一集合为所述多个集合中数据对最多的集合;根据基础位置权重值、预设权重比例值和多个集合中除第一集合外的所有集合,确定多个集合中除第一集合外的所有集合的权重值;将多个集合和多个集合中除第一集合外的所有集合的权重值进行整合处理,获得目标网页的特征向量,以使得根据特征向量对网页进行特征分析。

【技术实现步骤摘要】
一种网页特征提取方法和装置
本专利技术涉及互联网领域的特征提取技术,尤其涉及一种网页特征提取方法和装置。
技术介绍
网页特征的提取是对网页内容进行数据分析的关键技术之一,更是对互联网用户进行个性化分析以及个性化服务推荐的重要环节。网页特征的提取质量的优劣会直接影响到对互联网用户个性化分析结果的好坏,也会进一步的影响到对用户提供个性化服务的质量。网页特征的提取过程对网页的架构,网页的内容字词的丰富性,字词的同义性非常敏感,网页特征的提取算法需要考虑这些因素对提取结果的影响,规避其他因素的干扰,提取最能表征网页内容的特征词。现有技术中,网页特征提取的算法主要以文字频率-文档频率(TF_IDF,termfrequency–inversedocumentfrequency)算法和基于文档对象模型(DOM,DocumentObjectMode)树抽取技术为基础来构思优化的。TF_IDF算法是一种用于信息检索与数据挖掘的常用加权技术,采用计算字词在文件中出现的次数以及全网包含本字词的文件数来评估字词在网页中的重要程度,并以重要程度的大小为标准来筛选网页的特征词。基于DOM树的抽取技术是根据HTML网页所具有的树形层次结构特征来实现超文本标记语言HTML网页中的数据抽取,采用优化网页的特征向量的方式来提取网页的特征词。利用基于DOM树抽取技术获取到的网页特征词具有相对较高的准确率和召回率。然而,TF_IDF算法中特征词权重计算存在不合理性,由于HTML文档与普通的文档在结构上有很大的不同,它属于半结构化的文本形式,特征词在文档中所处的位置不同,它所体现出对文章表征能力的程度也应该是有差别的,所赋予的权重值就应该不同,因此,这种简单的套用IDF计算不是科学和全面的;TF_IDF类间的区分能力存在不足性,TF_IDF仅仅能区分一个特征项在此文本和此文本所在类的区别,但不能很好的表现此特征项和其他类间的区别。基于DOM树的抽取技术对网页结构有过多的依赖性,DOM技术是根据HTML网页所具有的树形层次结构特征来实现HTML网页中的数据抽取,利用基于DOM树抽取技术获取到的网页特征词的准确率和召回率相对较高,但是该技术需要相应的若干实例网页,因此是适用于各个不同的知识领域,但由于对结构性的过分依赖,容易在网页结构变化的形式下被动。总而言之,上述两种基础方法各自存在的一定的局限性,即对特征词所处位置的不敏感和对网页结构过于依赖。
技术实现思路
为解决上述技术问题,本专利技术实施例提供一种网页特征提取方法和装置,优化网页特征提取结果的质量,保证对互联网用户的个性化分析数据的正确性。本专利技术的技术方案是这样实现的:本专利技术实施例提供一种网页特征提取方法,所述方法包括:获取目标网页,根据网页信息的位置架构将所述目标网页分为多个文档部分;分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,其中,每一个文档部分对应一个集合,所述多个集合中的每一个集合包括至少一个数据对,每一个数据对包括:特征词和与所述特征词对应的次数;根据第一集合中与所述特征词对应的次数确定基础位置权重值,所述第一集合为所述多个集合中数据对最多的集合;根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值;将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,以使得根据所述特征向量对网页进行特征分析。可选的,所述根据网页信息的位置架构将目标网页分为多个文档部分,包括:根据网页信息的位置架构将所述目标网页分为标题、关键词、正文三个文档部分。可选的,所述分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,包括:对标题文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第一特征词,统计与所述第一特征词对应的次数,将所述第一特征词和与所述第一特征词对应的次数以数据对的格式存储在与标题文档部分对应的第二集合,所述第一特征词包括至少一个特征词;对关键词文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第二特征词,统计与所述第二特征词对应的次数,将所述第二特征词和与所述第二特征词对应的次数以数据对的格式存储在与关键词文档部分对应的第三集合,所述第二特征词包括至少一个特征词;对正文文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第三特征词,统计与所述第三特征词对应的次数,将所述第三特征词和所述第三特征词对应的次数以数据对的格式存储在与正文文档部分对应的第一集合,所述第三特征词包括至少一个特征词。可选的,所述根据第一集合中与所述特征词对应的次数确定基础位置权重值,包括:确定所述第一集合中所有特征词对应的次数中最大次数值为所述基础位置权重值。可选的,所述根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值,包括:将所述基础位置权重值与第一预设权重比例值相乘的值分别与所述第二集合中每一个特征词对应的次数相乘,获得所述第二集合中每一个特征词的权重值,所述第一预设权重比例值为网页标题位置相对于网页正文位置的权重比例;将所述基础位置权重值与第二预设权重比例值相乘的值分别与所述第三集合中每一个特征词对应的次数相乘,获得所述第三集合中每一个特征词的权重值,所述第二预设权重比例值为网页关键词位置相对于网页正文位置的权重比例。可选的,所述将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,包括:将所述多个集合中相同特征词对应的权重值相加,将相加后的权重值按照从大到小进行排序,确定排序后前n个权重值和与所述前n个权重值对应的特征词为所述目标网页的特征向量,其中,n为自然数。本专利技术实施例提供一种网页特征提取装置,所述装置包括:获取单元、处理单元、确定单元,其中,所述获取单元,用于获取目标网页;所述处理单元,用于根据网页信息的位置架构将所述目标网页分为多个文档部分,还用于分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,其中,每一个文档部分对应一个集合,所述多个集合中的每一个集合包括至少一个数据对,每一个数据对包括:特征词和与所述特征词对应的次数;所述确定单元,用于根据第一集合中与所述特征词对应的次数确定基础位置权重值,所述第一集合为所述多个集合中数据对最多的集合;还用于根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值;所述处理单元,还用于将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,以使得根据所述特征向量对网页进行特征分析。可选的,所述处理单元,用于根据网页信息的位置架构将所述目标网页分为标题、关键词、正文三个文档部分;还用于对标题文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第一特征词,统计与所述第一特征词对应的次数,将所述第一特本文档来自技高网
...

【技术保护点】
1.一种网页特征提取方法,其特征在于,所述方法包括:获取目标网页,根据网页信息的位置架构将所述目标网页分为多个文档部分;分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,其中,每一个文档部分对应一个集合,所述多个集合中的每一个集合包括至少一个数据对,每一个数据对包括:特征词和与所述特征词对应的次数;根据第一集合中与所述特征词对应的次数确定基础位置权重值,所述第一集合为所述多个集合中数据对最多的集合;根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值;将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,以使得根据所述特征向量对网页进行特征分析。

【技术特征摘要】
1.一种网页特征提取方法,其特征在于,所述方法包括:获取目标网页,根据网页信息的位置架构将所述目标网页分为多个文档部分;分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,其中,每一个文档部分对应一个集合,所述多个集合中的每一个集合包括至少一个数据对,每一个数据对包括:特征词和与所述特征词对应的次数;根据第一集合中与所述特征词对应的次数确定基础位置权重值,所述第一集合为所述多个集合中数据对最多的集合;根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值;将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,以使得根据所述特征向量对网页进行特征分析。2.根据权利要求1所述的方法,其特征在于,所述根据网页信息的位置架构将目标网页分为多个文档部分,包括:根据网页信息的位置架构将所述目标网页分为标题、关键词、正文三个文档部分。3.根据权利要求2所述的方法,其特征在于,所述分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,包括:对标题文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第一特征词,统计与所述第一特征词对应的次数,将所述第一特征词和与所述第一特征词对应的次数以数据对的格式存储在与标题文档部分对应的第二集合,所述第一特征词包括至少一个特征词;对关键词文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第二特征词,统计与所述第二特征词对应的次数,将所述第二特征词和与所述第二特征词对应的次数以数据对的格式存储在与关键词文档部分对应的第三集合,所述第二特征词包括至少一个特征词;对正文文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第三特征词,统计与所述第三特征词对应的次数,将所述第三特征词和所述第三特征词对应的次数以数据对的格式存储在与正文文档部分对应的第一集合,所述第三特征词包括至少一个特征词。4.根据权利要求1或3所述的方法,其特征在于,所述根据第一集合中与所述特征词对应的次数确定基础位置权重值,包括:确定所述第一集合中所有特征词对应的次数中最大次数值为所述基础位置权重值。5.根据权利要求3所述的方法,其特征在于,所述根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值,包括:将所述基础位置权重值与第一预设权重比例值相乘的值分别与所述第二集合中每一个特征词对应的次数相乘,获得所述第二集合中每一个特征词的权重值,所述第一预设权重比例值为网页标题位置相对于网页正文位置的权重比例;将所述基础位置权重值与第二预设权重比例值相乘的值分别与所述第三集合中每一个特征词对应的次数相乘,获得所述第三集合中每一个特征词的权重值,所述第二预设权重比例值为网页关键词位置相对于网页正文位置的权重比例。6.根据权利要求1所述的方法,其特征在于,所述将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,包括:将所述多个...

【专利技术属性】
技术研发人员:吕颖韬冯宜安周璐张贝金
申请(专利权)人:中移杭州信息技术有限公司中国移动通信集团公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1