【技术实现步骤摘要】
一种网页主题相关度判别方法
[0001]本专利技术属于计算机软件
,具体涉及一种网页主题相关度判别方法。
技术介绍
[0002]传统的通用搜索引擎能够为普通网民用户提供信息搜索服务,但是仅能模糊匹配用户需求,返回结果中丢失了很大部分语义相关网页,难以满足特定领域或特定用户更加集中和深入的信息需求。目前,虽然研究者们对网页主题相关度做了很多技术研究工作,但是对于一些在主题相关度判别精度要求和计算量要求较高的特定领域的应用任务中,目前的网页主题判别方法仍然具有一定的提升或改进空间,因此提高网页主题相关度判别的准确度同时降低计算量是一个亟待解决的关键性技术问题。
[0003]目前网页的相关度计算普遍采用向量空间模型(VSM),一般包括预处理、特征提取表示、构造向量空间、计算余弦相似度等阶段。Bag
‑
of
‑
Words是比较经典的向量空间模型,该方法将词语作为特征项进行向量表示,以词语的TF
‑
IDF值作为特征权重,最后计算余弦距离作为相似度。
[0004 ...
【技术保护点】
【技术特征摘要】
1.一种网页主题相关度判别方法,其特征在于,包括如下步骤;步骤1.训练词向量模型;步骤2.设置n个主题词t1,t2,t3,
…
,t
n
,构建用户主题词集合为topic_set={t1,t2,t3,
…
,t
n
};步骤3.去除待评估网页page中的HTML标签,得到仅包括标题和正文文字的文档;步骤4.提取文档的关键词,构建待评估网页的网页关键词集合为page_set={p1, p2, p3,
…
, p
m
}, p1, p2, p3,
…
, p
m
为提取的m个关键词;步骤5.生成词向量;利用步骤1得到的词向量模型将用户主题词集合topic_set和网页关键词集合page_set中的每个词语表征成为词向量,映射成用户主题词向量集合V
topic
={vt1,vt2,vt3,
…
,vt
n
}和待评估网页关键词向量集合V
page
={vp1,vp2,vp3,
…
,vp
m
};步骤6.依次计算待评估网页关键词向量集合V
page
中的各个词向量vp
j
与用户主题词向量集合V
topic
中的每个词向量vt
i
的余...
【专利技术属性】
技术研发人员:李涛,段翰聪,李林,王书涵,陈铎汝,邹涛,李阳,李浩,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。