一种网页主题相关度判别方法技术

技术编号：38585711 阅读：27 留言：0更新日期：2023-08-26 23:28

一种网页主题相关度判别方法，包括如下步骤；步骤1.训练词向量模型；步骤2.设置主题词，构建用户主题词集合；步骤3.去除待评估网页标签，得到仅包括标题和正文文字的文档；步骤4.提取文档的关键词，构建待评估网页的网页关键词集合；步骤5.生成词向量；步骤6.依次计算待评估网页关键词向量集合与用户主题词向量集合中词向量的余弦距离,选择其中最大值；步骤7.求出待评估网页所有关键词的平均值，作为待评估网页的主题相关度；步骤8.设定主题相关度阈值，判断是否主题相关。本发明专利技术通过使用预训练词向量模型对词进行处理，仅需要计算少量的词向量余弦距离即可对网页内容进行判断，提高了单篇网页的主题相关度判别的计算速度。了单篇网页的主题相关度判别的计算速度。了单篇网页的主题相关度判别的计算速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种网页主题相关度判别方法

[0001]本专利技术属于计算机软件
，具体涉及一种网页主题相关度判别方法。

技术介绍

[0002]传统的通用搜索引擎能够为普通网民用户提供信息搜索服务，但是仅能模糊匹配用户需求，返回结果中丢失了很大部分语义相关网页，难以满足特定领域或特定用户更加集中和深入的信息需求。目前，虽然研究者们对网页主题相关度做了很多技术研究工作，但是对于一些在主题相关度判别精度要求和计算量要求较高的特定领域的应用任务中，目前的网页主题判别方法仍然具有一定的提升或改进空间，因此提高网页主题相关度判别的准确度同时降低计算量是一个亟待解决的关键性技术问题。
[0003]目前网页的相关度计算普遍采用向量空间模型(VSM)，一般包括预处理、特征提取表示、构造向量空间、计算余弦相似度等阶段。Bag
‑
of
‑
Words是比较经典的向量空间模型，该方法将词语作为特征项进行向量表示，以词语的TF
‑
IDF值作为特征权重，最后计算余弦距离作为相似度。
[0004...

【技术保护点】

【技术特征摘要】
1.一种网页主题相关度判别方法，其特征在于,包括如下步骤；步骤1.训练词向量模型；步骤2.设置n个主题词t1,t2,t3,
…
，t
n
,构建用户主题词集合为topic_set={t1,t2,t3,
…
，t
n
}；步骤3.去除待评估网页page中的HTML标签，得到仅包括标题和正文文字的文档；步骤4.提取文档的关键词，构建待评估网页的网页关键词集合为page_set={p1, p2, p3,
…
， p
m
}， p1, p2, p3,
…
， p
m
为提取的m个关键词；步骤5.生成词向量；利用步骤1得到的词向量模型将用户主题词集合topic_set和网页关键词集合page_set中的每个词语表征成为词向量，映射成用户主题词向量集合V
topic
={vt1,vt2,vt3,
…
,vt
n
}和待评估网页关键词向量集合V
page
={vp1,vp2,vp3,
…
,vp
m
}；步骤6.依次计算待评估网页关键词向量集合V
page
中的各个词向量vp
j
与用户主题词向量集合V
topic
中的每个词向量vt
i
的余...

【专利技术属性】
技术研发人员：李涛，段翰聪，李林，王书涵，陈铎汝，邹涛，李阳，李浩，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人