一种网页主题相关度判别方法技术

技术编号:38585711 阅读:16 留言:0更新日期:2023-08-26 23:28
一种网页主题相关度判别方法,包括如下步骤;步骤1.训练词向量模型;步骤2.设置主题词,构建用户主题词集合;步骤3.去除待评估网页标签,得到仅包括标题和正文文字的文档;步骤4.提取文档的关键词,构建待评估网页的网页关键词集合;步骤5.生成词向量;步骤6.依次计算待评估网页关键词向量集合与用户主题词向量集合中词向量的余弦距离,选择其中最大值;步骤7.求出待评估网页所有关键词的平均值,作为待评估网页的主题相关度;步骤8.设定主题相关度阈值,判断是否主题相关。本发明专利技术通过使用预训练词向量模型对词进行处理,仅需要计算少量的词向量余弦距离即可对网页内容进行判断,提高了单篇网页的主题相关度判别的计算速度。了单篇网页的主题相关度判别的计算速度。了单篇网页的主题相关度判别的计算速度。

【技术实现步骤摘要】
一种网页主题相关度判别方法


[0001]本专利技术属于计算机软件
,具体涉及一种网页主题相关度判别方法。

技术介绍

[0002]传统的通用搜索引擎能够为普通网民用户提供信息搜索服务,但是仅能模糊匹配用户需求,返回结果中丢失了很大部分语义相关网页,难以满足特定领域或特定用户更加集中和深入的信息需求。目前,虽然研究者们对网页主题相关度做了很多技术研究工作,但是对于一些在主题相关度判别精度要求和计算量要求较高的特定领域的应用任务中,目前的网页主题判别方法仍然具有一定的提升或改进空间,因此提高网页主题相关度判别的准确度同时降低计算量是一个亟待解决的关键性技术问题。
[0003]目前网页的相关度计算普遍采用向量空间模型(VSM),一般包括预处理、特征提取表示、构造向量空间、计算余弦相似度等阶段。Bag

of

Words是比较经典的向量空间模型,该方法将词语作为特征项进行向量表示,以词语的TF

IDF值作为特征权重,最后计算余弦距离作为相似度。
[0004]向量空间模型判别网页相关度主要存在以下两个方面的问题:一是相关度计算必须经历预处理、特征提取表示、构造向量空间、计算余弦相似度等多个过程,计算开销比较大;二是丢失了词语之间的顺序,忽略了词语间的语义相关性,降低了网页主题相关度判别的精确度。

技术实现思路

[0005]为克服现有技术存在的缺陷,本专利技术公开了一种网页主题相关度判别方法。
[0006]本专利技术所述一种网页主题相关度判别方法,包括如下步骤;
[0007]步骤1.训练词向量模型;
[0008]步骤2.设置n个主题词t1,t2,t3,

,t
n
,构建用户主题词集合为topic_set={t1,t2,t3,

,t
n
};
[0009]步骤3.去除待评估网页page中的HTML标签,得到仅包括标题和正文文字的文档;
[0010]步骤4.提取文档的关键词,构建待评估网页的网页关键词集合为page_set={p1,p2,p3,

,p
m
},p1,p2,p3,

,p
m
为提取的m个关键词;
[0011]步骤5.生成词向量。利用步骤1得到的词向量模型将用户主题词集合topic_set和网页关键词集合page_set中的每个词语表征成为词向量,映射成用户主题词向量集合V
topic
={vt1,vt2,vt3,

,vt
n
}和待评估网页关键词向量集合V
page
={vp1,vp2,vp3,

,vp
m
};
[0012]步骤6.依次计算待评估网页关键词向量集合V
page
中的各个词向量vp
j
与用户主题词向量集合V
topic
中的每个词向量vt
i
的余弦距离,之后选择其中余弦距离的最大值作为第j个关键词p
j
的主题相关度Similar(vp
j
,topic);计算公式如下所示:
[0013]Similar(vp
j
,V
topic
)=max(cs(vp
j
,vt
i
))
[0014]max()表示取最大值,cs()表示求二者的余弦距离;
[0015]求取输入向量u和v之间余弦距离的求取公式为
[0016][0017]其中θ为u和v之间的角度,‖u‖为向量u的L2范数,‖v‖为向量v的L2范数,u
i
,v
i
分别表示向量u和v中的不同向量元素,均为n维;
[0018]步骤7.在得到待评估网页中每个关键词的主题相关度Similar(vp
j
,topic)后,求出待评估网页所有关键词的Similar(vp
j
,topic)平均值,作为待评估网页的主题相关度Similar(page,topic);
[0019]计算公式如下所示:
[0020][0021]其中m为关键词总数,n为主题词总数;
[0022]步骤8.设定主题相关度阈值S,如果步骤7计算得到的网页的主题相关度Similar(page,topic)达到相关度阈值S时,判断为待评估网页为主题相关,否则为主题不相关。
[0023]优选的,所述步骤1中利用Word2Vec模型进行词向量模型训练。
[0024]优选的,所述步骤4中采用TextRank算法提取关键词。
[0025]本专利技术提出了一种网页主题相关度判别方法,可融合word2vec模型和TextRank算法提高识别效果,具有如下有益效果:
[0026]1.通过使用预训练词向量模型对词进行处理,仅需要计算少量的词向量余弦距离即可对网页内容进行主题判断,提高了单篇网页的主题相关度判别的计算速度。
[0027]2.该算法采用Word2Vec模型训练词向量和TextRank算法提取待评估网页的关键词,能够考虑到主题词与网页间的语义。
[0028]3.本专利技术通过关键词比对快速识别文档主题,可在主题网络爬虫、舆情监控、垃圾邮件分类识别、机器翻译、自动问答系统等领域中运用本专利技术,应用范围广。
附图说明
[0029]图1为本专利技术所述网页主题相关度判别方法的一个具体实施方式流程示意图。
具体实施方式
[0030]下面对本专利技术的具体实施方式作进一步的详细说明。
[0031]本专利技术提供了一种网页主题相关度判别方法,基本思想是基于word2vec模型计算待评估网页提取的关键词与用户设定的主题词之间词向量的余弦距离来分析二者之间的相关程度。
[0032]本专利技术的目的是提供一种能够应用于单篇网页对主题相关度判别的有效方法,不仅能够辅助人们在海量的互联网数据中发现与特定主题相关的网页,而且在主题网络爬虫、舆情监控、垃圾邮件分类识别、机器翻译、自动问答系统等领域中也能够广泛应用。
[0033]首先使用word2vec模型训练大规模语料得到词向量模型,然后采用TextRank算法提取待评估网页的关键词,最后使用预训练的词向量模型表征待评估网页提取的关键词与
用户设定的主题词为词向量形式,计算其余弦距离来分析二者之间的相关程度,实现具体步骤如下:
[0034]步骤1.训练词向量模型。训练语料库可采用维基百科里的中文语料库,使用word2vec基于Hierarchical Softmax技术的Skip

gram模型训练一个K维的词向量模型。
[0035]Word2Vec模型采用输入层(Input)、投影层(Projection)和输出层(Outpu本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页主题相关度判别方法,其特征在于,包括如下步骤;步骤1.训练词向量模型;步骤2.设置n个主题词t1,t2,t3,

,t
n
,构建用户主题词集合为topic_set={t1,t2,t3,

,t
n
};步骤3.去除待评估网页page中的HTML标签,得到仅包括标题和正文文字的文档;步骤4.提取文档的关键词,构建待评估网页的网页关键词集合为page_set={p1, p2, p3,

, p
m
}, p1, p2, p3,

, p
m
为提取的m个关键词;步骤5.生成词向量;利用步骤1得到的词向量模型将用户主题词集合topic_set和网页关键词集合page_set中的每个词语表征成为词向量,映射成用户主题词向量集合V
topic
={vt1,vt2,vt3,

,vt
n
}和待评估网页关键词向量集合V
page
={vp1,vp2,vp3,

,vp
m
};步骤6.依次计算待评估网页关键词向量集合V
page
中的各个词向量vp
j
与用户主题词向量集合V
topic
中的每个词向量vt
i
的余...

【专利技术属性】
技术研发人员:李涛段翰聪李林王书涵陈铎汝邹涛李阳李浩
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1