搜索引擎优化方法、装置、设备及存储介质制造方法及图纸

技术编号:33195780 阅读:32 留言:0更新日期:2022-04-24 00:24
本发明专利技术属于搜索引擎技术领域,公开了一种搜索引擎优化方法、装置、设备及存储介质,该方法通过获取搜索引擎的预设查询语句和历史未展示内容;根据训练后的预设语言模型对历史未展示内容和预设查询语句进行特征提取,以获得历史未展示内容和预设查询语句之间的相关度;根据历史未展示内容对应的查询语句生成查询语句候选集;根据相关度对查询语句候选集进行过滤获得目标查询语句,并根据目标查询语句优化搜索引擎。本发明专利技术中,对搜索引擎中的历史未展示内容生成目标查询语句,提高这些历史未展示内容在搜索系统检索召回阶段的分数,可以提高内容的被召回概率,使检索结果更加准确,实现搜索引擎优化。现搜索引擎优化。现搜索引擎优化。

【技术实现步骤摘要】
搜索引擎优化方法、装置、设备及存储介质


[0001]本专利技术涉及搜索引擎
,尤其涉及一种搜索引擎优化方法、装置、设备及存储介质。

技术介绍

[0002]通用搜索引擎应该尽可能多覆盖全网内容,基于当前搜索系统的设计逻辑,某些内容从未被检索到,这些未被展示的内容不会有用户点击,导致这些内容在搜索系统检索召回阶段分数变低,进而更难以被检索到,这些内容的被召回概率,现有提升召回率方法存在生成歧义、强行注入额外信息等问题,这些问题会导致错误的召回,使搜索结果不准确。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提供一种搜索引擎优化方法、装置、设备及存储介质,旨在解决现有搜索引擎中未被展示内容被召回概率低,且现有提升召回率方式造成搜索结果不准确的技术问题。
[0005]为实现上述目的,本专利技术提供了一种搜索引擎优化方法,所述方法包括以下步骤:
[0006]获取搜索引擎的预设查询语句和历史未展示内容;
[0007]根据训练后的预设语言模型对所述历史未展示内容和所述预设查询语句进行特征提取,以获得所述历史未展示内容和所述预设查询语句之间的相关度;
[0008]根据所述历史未展示内容对应的查询语句生成查询语句候选集;
[0009]根据所述相关度对所述查询语句候选集进行过滤,以获得目标查询语句,并根据所述目标查询语句优化搜索引擎。
[0010]可选地,所述根据训练后的预设语言模型对所述历史未展示内容和所述预设查询语句进行特征提取,以获得所述历史未展示内容和所述预设查询语句之间的相关度的步骤之前,还包括:
[0011]构建预处理数据集;
[0012]通过三元损失函数和所述预处理数据集对预设语言模型进行训练,以获得训练后的预设语言模型。
[0013]可选地,所述构建预处理数据集的步骤,包括:
[0014]获取待训练预设展示内容以及所述待训练预设展示内容对应的正例样本;
[0015]根据预设随机算法获取所述待训练预设展示内容对应的负例样本;
[0016]根据所述待训练预设展示内容、所述正例样本以及所述负例样本构建预处理数据集。
[0017]可选地,所述通过三元损失函数和所述预处理数据集对预设语言模型进行训练,以获得训练后的预设语言模型的步骤之前,还包括:
[0018]根据所述预处理数据集构建样本三元组;
[0019]根据所述样本三元组构建三元损失函数。
[0020]可选地,所述根据所述样本三元组构建三元损失函数的步骤,包括:
[0021]根据所述样本三元组获取所述待训练预设展示内容、所述正例样本和所述负例样本;
[0022]确定所述待训练预设展示内容和所述正例样本之间的正例距离;
[0023]确定所述待训练预设展示内容和所述负例样本之间的负例距离;
[0024]根据所述正例距离、所述负例距离以及预设间隔确定三元损失函数。
[0025]可选地,所述获取搜索引擎的预设查询语句和历史未展示内容的步骤之前,还包括:
[0026]获取搜索引擎的预设语料库,并根据所述预设语料库获取初始查询语句;
[0027]对所述初始查询语句进行去重处理,获得去重后的查询语句;
[0028]将所述去重后的查询语句作为预设查询语句。
[0029]可选地,所述对所述初始查询语句进行去重处理,获得去重后的查询语句的步骤,包括:
[0030]分别获取所述初始查询语句之间的字符串距离;
[0031]判断所述字符串距离是否小于预设第一距离阈值;
[0032]将所述字符串距离小于所述预设第一距离阈值对应的初始查询语句进行删减,以获得去重后的查询语句。
[0033]可选地,所述对所述初始查询语句进行去重处理,获得去重后的查询语句的步骤,包括:
[0034]分别获取所述初始查询语句之间的编辑距离;
[0035]判断所述编辑距离是否小于预设第二距离阈值;
[0036]将所述编辑距离小于所述预设第二距离阈值对应的初始查询语句进行删减,以获得去重后的查询语句。
[0037]可选地,所述根据训练后的预设语言模型对所述历史未展示内容和所述预设查询语句进行特征提取,以获得所述历史未展示内容和所述预设查询语句的相关度的步骤,包括:
[0038]根据训练后的预设语言模型对所述历史未展示内容和所述预设查询语句进行特征提取,以获得所述历史未展示内容的内容特征向量和所述预设查询语句的语义特征向量;
[0039]根据所述内容特征向量和所述语义特征向量确定所述历史未展示内容和所述预设查询语句的相关度。
[0040]可选地,所述根据训练后的预设语言模型对所述历史未展示内容和所述预设查询语句进行特征提取,以获得所述历史未展示内容的内容特征向量和所述预设查询语句的语义特征向量的步骤,包括:
[0041]根据训练后的预设语言模型对所述历史未展示内容进行特征提取,以获得所述历史未展示内容的内容特征向量;
[0042]根据训练后的预设语言模型对所述预设查询语句进行特征提取,以获得所述预设
查询语句中各分词特征向量和各词组特征向量;
[0043]根据所述各分词特征向量以及所述各词组特征向量构建所述预设查询语句的语义特征向量。
[0044]可选地,所述根据所述各分词特征向量以及所述各词组特征向量构建所述预设查询语句的语义特征向量的步骤,包括:
[0045]对所述各分词特征向量和所述各词组特征向量求和,以获得特征向量和;
[0046]根据所述特征向量和的平均值构建所述预设查询语句的语义特征向量。
[0047]可选地,所述根据所述相关度对所述查询语句候选集进行过滤,以获得目标查询语句,并根据所述目标查询语句优化搜索引擎的步骤,包括:
[0048]根据所述相关度对所述查询语句候选集进行过滤,以获得目标查询语句;
[0049]根据所述目标查询语句更新所述查询语句候选集,以获得所述历史未展示内容对应的目标查询语句集合;
[0050]根据所述目标查询语句集合优化搜索引擎。
[0051]可选地,所述根据所述相关度对所述查询语句候选集进行过滤,以获得目标查询语句的步骤,包括:
[0052]构建所述查询语句候选集中的查询语句的当前语义特征向量;
[0053]分别计算所述预设查询语句的语义特征向量与所述当前语义特征向量之间的相似度;
[0054]根据所述相关度以及所述相似度从所述查询语句候选集中筛选出目标查询语句。
[0055]可选地,所述根据所述相关度以及所述相似度从所述查询语句候选集中筛选出目标查询语句的步骤,包括:
[0056]判断所述相似度是否大于所述相关度;
[0057]在所述相似度大于所述相关度时,确定所述相似度对应的所述查询语句候本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种搜索引擎优化方法,其特征在于,所述搜索引擎优化方法包括:获取搜索引擎的预设查询语句和历史未展示内容;根据训练后的预设语言模型对所述历史未展示内容和所述预设查询语句进行特征提取,以获得所述历史未展示内容和所述预设查询语句之间的相关度;根据所述历史未展示内容对应的查询语句生成查询语句候选集;根据所述相关度对所述查询语句候选集进行过滤,以获得目标查询语句,并根据所述目标查询语句优化搜索引擎。2.如权利要求1所述的搜索引擎优化方法,其特征在于,所述根据训练后的预设语言模型对所述历史未展示内容和所述预设查询语句进行特征提取,以获得所述历史未展示内容和所述预设查询语句之间的相关度的步骤之前,还包括:构建预处理数据集;通过三元损失函数和所述预处理数据集对预设语言模型进行训练,以获得训练后的预设语言模型。3.如权利要求2所述的搜索引擎优化方法,其特征在于,所述构建预处理数据集的步骤,包括:获取待训练预设展示内容以及所述待训练预设展示内容对应的正例样本;根据预设随机算法获取所述待训练预设展示内容对应的负例样本;根据所述待训练预设展示内容、所述正例样本以及所述负例样本构建预处理数据集。4.如权利要求3所述的搜索引擎优化方法,其特征在于,所述通过三元损失函数和所述预处理数据集对预设语言模型进行训练,以获得训练后的预设语言模型的步骤之前,还包括:根据所述预处理数据集构建样本三元组;根据所述样本三元组构建三元损失函数。5.如权利要求4所述的搜索引擎优化方法,其特征在于,所述根据所述样本三元组构建三元损失函数的步骤,包括:根据所述样本三元组获取所述待训练预设展示内容、所述正例样本和所述负例样本;确定所述待训练预设展示内容和所述正例样本之间的正例距离;确定所述待训练预设展示内容和所述负例样本之间的负例距...

【专利技术属性】
技术研发人员:郑美松
申请(专利权)人:北京鸿享技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1