【技术实现步骤摘要】
一种网页特征提取方法和装置
本专利技术涉及互联网领域的特征提取技术,尤其涉及一种网页特征提取方法和装置。
技术介绍
网页特征的提取是对网页内容进行数据分析的关键技术之一,更是对互联网用户进行个性化分析以及个性化服务推荐的重要环节。网页特征的提取质量的优劣会直接影响到对互联网用户个性化分析结果的好坏,也会进一步的影响到对用户提供个性化服务的质量。网页特征的提取过程对网页的架构,网页的内容字词的丰富性,字词的同义性非常敏感,网页特征的提取算法需要考虑这些因素对提取结果的影响,规避其他因素的干扰,提取最能表征网页内容的特征词。现有技术中,网页特征提取的算法主要以文字频率-文档频率(TF_IDF,termfrequency–inversedocumentfrequency)算法和基于文档对象模型(DOM,DocumentObjectMode)树抽取技术为基础来构思优化的。TF_IDF算法是一种用于信息检索与数据挖掘的常用加权技术,采用计算字词在文件中出现的次数以及全网包含本字词的文件数来评估字词在网页中的重要程度,并以重要程度的大小为标准来筛选网页的特征词。基于DOM树的抽取技术是根据HTML网页所具有的树形层次结构特征来实现超文本标记语言HTML网页中的数据抽取,采用优化网页的特征向量的方式来提取网页的特征词。利用基于DOM树抽取技术获取到的网页特征词具有相对较高的准确率和召回率。然而,TF_IDF算法中特征词权重计算存在不合理性,由于HTML文档与普通的文档在结构上有很大的不同,它属于半结构化的文本形式,特征词在文档中所处的位置不同,它所体现出对文章表征能力的 ...
【技术保护点】
1.一种网页特征提取方法,其特征在于,所述方法包括:获取目标网页,根据网页信息的位置架构将所述目标网页分为多个文档部分;分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,其中,每一个文档部分对应一个集合,所述多个集合中的每一个集合包括至少一个数据对,每一个数据对包括:特征词和与所述特征词对应的次数;根据第一集合中与所述特征词对应的次数确定基础位置权重值,所述第一集合为所述多个集合中数据对最多的集合;根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值;将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,以使得根据所述特征向量对网页进行特征分析。
【技术特征摘要】
1.一种网页特征提取方法,其特征在于,所述方法包括:获取目标网页,根据网页信息的位置架构将所述目标网页分为多个文档部分;分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,其中,每一个文档部分对应一个集合,所述多个集合中的每一个集合包括至少一个数据对,每一个数据对包括:特征词和与所述特征词对应的次数;根据第一集合中与所述特征词对应的次数确定基础位置权重值,所述第一集合为所述多个集合中数据对最多的集合;根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值;将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,以使得根据所述特征向量对网页进行特征分析。2.根据权利要求1所述的方法,其特征在于,所述根据网页信息的位置架构将目标网页分为多个文档部分,包括:根据网页信息的位置架构将所述目标网页分为标题、关键词、正文三个文档部分。3.根据权利要求2所述的方法,其特征在于,所述分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,包括:对标题文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第一特征词,统计与所述第一特征词对应的次数,将所述第一特征词和与所述第一特征词对应的次数以数据对的格式存储在与标题文档部分对应的第二集合,所述第一特征词包括至少一个特征词;对关键词文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第二特征词,统计与所述第二特征词对应的次数,将所述第二特征词和与所述第二特征词对应的次数以数据对的格式存储在与关键词文档部分对应的第三集合,所述第二特征词包括至少一个特征词;对正文文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第三特征词,统计与所述第三特征词对应的次数,将所述第三特征词和所述第三特征词对应的次数以数据对的格式存储在与正文文档部分对应的第一集合,所述第三特征词包括至少一个特征词。4.根据权利要求1或3所述的方法,其特征在于,所述根据第一集合中与所述特征词对应的次数确定基础位置权重值,包括:确定所述第一集合中所有特征词对应的次数中最大次数值为所述基础位置权重值。5.根据权利要求3所述的方法,其特征在于,所述根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值,包括:将所述基础位置权重值与第一预设权重比例值相乘的值分别与所述第二集合中每一个特征词对应的次数相乘,获得所述第二集合中每一个特征词的权重值,所述第一预设权重比例值为网页标题位置相对于网页正文位置的权重比例;将所述基础位置权重值与第二预设权重比例值相乘的值分别与所述第三集合中每一个特征词对应的次数相乘,获得所述第三集合中每一个特征词的权重值,所述第二预设权重比例值为网页关键词位置相对于网页正文位置的权重比例。6.根据权利要求1所述的方法,其特征在于,所述将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,包括:将所述多个...
【专利技术属性】
技术研发人员:吕颖韬,冯宜安,周璐,张贝金,
申请(专利权)人:中移杭州信息技术有限公司,中国移动通信集团公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。