一种主题相关度判别方法及装置制造方法及图纸

技术编号：27030550 阅读：18 留言：0更新日期：2021-01-12 11:13

本申请提供了一种主题相关度判别方法及装置，方法包括：对获取的网页构建网页特征向量；利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算；筛选出相似度高于预设值的网页特征向量。本申请结合了语义向量相似度计算和机器学习方法的优点，相比于现有技术，可以实现较高的判别精度，并且本申请在训练样本的筛选上也作出了不同于现有技术的改进。

全部详细技术资料下载

【技术实现步骤摘要】
一种主题相关度判别方法及装置
本申请属于自然语言处理
，具体地讲，涉及一种主题相关度判别方法及装置。
技术介绍
主题爬虫(topicalcrawler)技术是垂直搜索引擎中一项极其重要的技术，主题爬虫技术将搜索范围限定在特定的主题内，在通用的爬虫技术的基础上加入了页面主题相关性计算模块和候选链接优先级计算模块，这两个模块直接影响到应用主题爬虫技术下载的网页质量。当前，虽然主题爬虫技术研究已经比较成熟，但是对于一些特定的应用，特别是主题相关度判别精度要求比较高的任务来说，目前的主题判别方法仍然缺乏足够的准确性，因此亟待提高主题判别的准确度。
技术实现思路
本申请提供了一种主题相关度判别方法及装置，以至少解决当前现有技术中的语义相似度计算方法的计算精度较低、对特征提取、文本向量标识等过程的精度的依赖性较强、算法泛化能力差的问题。根据本申请的一个方面，提供了一种主题相关度判别方法，包括：对获取的网页构建网页特征向量；利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算；筛选出相似度高于预设值的网页特征向量。在一实施例中，利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算，包括：获取主题特征向量与网页特征向量之间的余弦相似度；根据主题特征向量和网页特征向量中的特征词项获取主题特征向量与网页特征向量之间的第一语义相似度；根据第一语义相似度与余弦相似度计算主题特征向量与网页特征向量之...

【技术保护点】
1.一种主题相关度判别方法，其特征在于，包括：/n对获取的网页构建网页特征向量；/n利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算；/n筛选出相似度高于预设值的网页特征向量。/n

【技术特征摘要】
1.一种主题相关度判别方法，其特征在于，包括：
对获取的网页构建网页特征向量；
利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算；
筛选出相似度高于预设值的网页特征向量。

2.根据权利要求1所述的主题相关度判别方法，其特征在于，所述利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算，包括：
获取所述主题特征向量与所述网页特征向量之间的余弦相似度；
根据所述主题特征向量和所述网页特征向量中的特征词项获取所述主题特征向量与所述网页特征向量之间的第一语义相似度；
根据所述第一语义相似度与所述余弦相似度计算主题特征向量与网页特征向量之间的相似度。

3.根据权利要求2所述的主题相关度判别方法，其特征在于，所述根据所述主题特征向量和所述网页特征向量中的特征词项获取所述主题特征向量与所述网页特征向量之间的第一语义相似度，包括：
选取所述主题特征向量和所述网页特征向量中的特征词项，并计算特征词项之间的第二语义相似度；
根据所述第二语义相似度计算第一语义相似度。

4.根据权利要求1所述的主题相关度判别方法，其特征在于，语义向量空间模型的训练步骤包括：
对收集的网页样本进行分词、此感还原和词性标注处理后选择关键词；
对所述关键词利用TFIDF算法计算其在网页样本中的权重并筛选权重排序前30％的名词和动词；
利用筛选出的名词和动词作为主题样本的特征向量；
用所述主题样本的特征向量对所述语义向量空间模型进行训练。

5.一种主题相关度判别装置，其特征在于，包括：
特征向量构建单元，用于对获取的网页构建网页特征向量；
相似度计算单元，用于利用预先训练的语义向量空间模型对选定的主题...

【专利技术属性】
技术研发人员：李欣，赵志云，葛自发，孙小宁，张冰，万欣欣，袁钟怡，赵忠华，孙立远，付培国，王禄恒，王晴，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人