一种主题相关度判别方法及装置制造方法及图纸

技术编号:27030550 阅读:18 留言:0更新日期:2021-01-12 11:13
本申请提供了一种主题相关度判别方法及装置,方法包括:对获取的网页构建网页特征向量;利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算;筛选出相似度高于预设值的网页特征向量。本申请结合了语义向量相似度计算和机器学习方法的优点,相比于现有技术,可以实现较高的判别精度,并且本申请在训练样本的筛选上也作出了不同于现有技术的改进。

【技术实现步骤摘要】
一种主题相关度判别方法及装置
本申请属于自然语言处理
,具体地讲,涉及一种主题相关度判别方法及装置。
技术介绍
主题爬虫(topicalcrawler)技术是垂直搜索引擎中一项极其重要的技术,主题爬虫技术将搜索范围限定在特定的主题内,在通用的爬虫技术的基础上加入了页面主题相关性计算模块和候选链接优先级计算模块,这两个模块直接影响到应用主题爬虫技术下载的网页质量。当前,虽然主题爬虫技术研究已经比较成熟,但是对于一些特定的应用,特别是主题相关度判别精度要求比较高的任务来说,目前的主题判别方法仍然缺乏足够的准确性,因此亟待提高主题判别的准确度。
技术实现思路
本申请提供了一种主题相关度判别方法及装置,以至少解决当前现有技术中的语义相似度计算方法的计算精度较低、对特征提取、文本向量标识等过程的精度的依赖性较强、算法泛化能力差的问题。根据本申请的一个方面,提供了一种主题相关度判别方法,包括:对获取的网页构建网页特征向量;利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算;筛选出相似度高于预设值的网页特征向量。在一实施例中,利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算,包括:获取主题特征向量与网页特征向量之间的余弦相似度;根据主题特征向量和网页特征向量中的特征词项获取主题特征向量与网页特征向量之间的第一语义相似度;根据第一语义相似度与余弦相似度计算主题特征向量与网页特征向量之间的相似度。在一实施例中,根据主题特征向量和网页特征向量中的特征词项获取主题特征向量与网页特征向量之间的第一语义相似度,包括:选取主题特征向量和网页特征向量中的特征词项,并计算特征词项之间的第二语义相似度;根据第二语义相似度计算第一语义相似度。在一实施例中,语义向量空间模型的训练步骤包括:对收集的网页样本进行分词、此感还原和词性标注处理后选择关键词;对关键词利用TFIDF算法计算其在网页样本中的权重并筛选权重排序前30%的名词和动词;利用筛选出的名词和动词作为主题样本的特征向量;用主题样本的特征向量对语义向量空间模型进行训练。根据本申请的另一个方面,还提供了一种主题相关度判别装置,包括:特征向量构建单元,用于对获取的网页构建网页特征向量;相似度计算单元,用于利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算;相似度判别单元,用于筛选出相似度高于预设值的网页特征向量。在一实施例中,相似度计算单元包括:余弦相似度计算模块,用于获取主题特征向量与网页特征向量之间的余弦相似度;第一语义相似度计算模块,用于根据主题特征向量和网页特征向量中的特征词项获取主题特征向量与网页特征向量之间的第一语义相似度;相关度计算模块,用于根据第一语义相似度与余弦相似度计算主题特征向量与网页特征向量之间的相似度。在一实施例中,第一语义相似度计算模块包括:第二语义相似度计算模块,用于选取主题特征向量和网页特征向量中的特征词项,并计算特征词项之间的第二语义相似度;计算模块,用于根据第二语义相似度计算第一语义相似度。在一实施例中,语义向量空间模型的训练步骤包括:对收集的网页样本进行分词、此感还原和词性标注处理后选择关键词;对关键词利用TFIDF算法计算其在网页样本中的权重并筛选权重排序前30%的名词和动词;利用筛选出的名词和动词作为主题样本的特征向量;用主题样本的特征向量对语义向量空间模型进行训练。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请提供的一种主题相关判别度方法流程图。图2为本申请提供的一种双向LSTM深度学习模型结构示意图。图3为本申请提供的一种主题相关判别度装置结构框图。图4为本申请实施例中一种电子设备的具体实施方式。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。当前,网页主题相关度计算可分为基于语义相似度计算的方法和基于机器学习的方法两种。语义相似度计算方法简单直接,无需训练数据支持,但缺点在于计算精度较低,对特征提取、文本的向量表示等过程的精度的依赖性较强,算法泛化能力差;基于机器学习的策略将主题相关度计算转化为分类问题,可获得较高的准确度,但缺点在于算法严重依赖于训练数据。基于上述问题,本申请提供了一种主题相关度判别方法,利用语义向量相似度计算模型获取训练数据集,进而利用该数据集实现基于机器学习模型的主题相关度计算。如图1所示,为本申请提供的主题相关度判别方法,包括:S101:对获取的网页构建网页特征向量。S102:利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算。S103:筛选出相似度高于预设值的网页特征向量。在一实施例中,利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算,包括:获取主题特征向量与网页特征向量之间的余弦相似度;根据主题特征向量和网页特征向量中的特征词项获取主题特征向量与网页特征向量之间的第一语义相似度;根据第一语义相似度与余弦相似度计算主题特征向量与网页特征向量之间的相似度。在一实施例中,根据主题特征向量和网页特征向量中的特征词项获取主题特征向量与网页特征向量之间的第一语义相似度,包括:选取主题特征向量和网页特征向量中的特征词项,并计算特征词项之间的第二语义相似度;根据第二语义相似度计算第一语义相似度。首先对于海量未标注数据,利用语义相似度计算模型计算其与主题向量的相关度。并将相关度高于某一阈值a和低于某一阈值b的语料分别注释为正例集合和反例集合。这一做法的根据来源于一个前提假设,即语义相似度的计算误差集中在与主题相关度处于不高不低的模糊状态的样本,而对于与主题相关度非常高或者非常低的样本,利用语义相似度方法也可以计算的非常准确,可以作为优质训练集合。文本语义相似度特征计算的经典方法是使用向量空间模型(VSM)来表示网页文本,网页和主题分别表示成两个特征向量,二者之间的相似度采用余弦相似度、Jaccard相似度或简单向量内积等方法来计算,这种计算方法必然使得特征向量的维数很大并且向量内部是稀疏的,而且本文档来自技高网...

【技术保护点】
1.一种主题相关度判别方法,其特征在于,包括:/n对获取的网页构建网页特征向量;/n利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算;/n筛选出相似度高于预设值的网页特征向量。/n

【技术特征摘要】
1.一种主题相关度判别方法,其特征在于,包括:
对获取的网页构建网页特征向量;
利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算;
筛选出相似度高于预设值的网页特征向量。


2.根据权利要求1所述的主题相关度判别方法,其特征在于,所述利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算,包括:
获取所述主题特征向量与所述网页特征向量之间的余弦相似度;
根据所述主题特征向量和所述网页特征向量中的特征词项获取所述主题特征向量与所述网页特征向量之间的第一语义相似度;
根据所述第一语义相似度与所述余弦相似度计算主题特征向量与网页特征向量之间的相似度。


3.根据权利要求2所述的主题相关度判别方法,其特征在于,所述根据所述主题特征向量和所述网页特征向量中的特征词项获取所述主题特征向量与所述网页特征向量之间的第一语义相似度,包括:
选取所述主题特征向量和所述网页特征向量中的特征词项,并计算特征词项之间的第二语义相似度;
根据所述第二语义相似度计算第一语义相似度。


4.根据权利要求1所述的主题相关度判别方法,其特征在于,语义向量空间模型的训练步骤包括:
对收集的网页样本进行分词、此感还原和词性标注处理后选择关键词;
对所述关键词利用TFIDF算法计算其在网页样本中的权重并筛选权重排序前30%的名词和动词;
利用筛选出的名词和动词作为主题样本的特征向量;
用所述主题样本的特征向量对所述语义向量空间模型进行训练。


5.一种主题相关度判别装置,其特征在于,包括:
特征向量构建单元,用于对获取的网页构建网页特征向量;
相似度计算单元,用于利用预先训练的语义向量空间模型对选定的主题...

【专利技术属性】
技术研发人员:李欣赵志云葛自发孙小宁张冰万欣欣袁钟怡赵忠华孙立远付培国王禄恒王晴
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1