搜索词纠正方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:30516970 阅读:19 留言:0更新日期:2021-10-27 22:59
本申请实施例提供了一种搜索词纠正方法、装置、电子设备及计算机存储介质,所述方法包括:获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;对所述第二候选词集合中的候选词进行评分;根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。本申请实施例提供的技术方案与现有技术相比,提升了对搜索词的召回率的同时保证纠正搜索词准确率,提升了用户体验。提升了用户体验。提升了用户体验。

【技术实现步骤摘要】
搜索词纠正方法、装置、电子设备及计算机存储介质


[0001]本申请涉及计算机
,尤指一种搜索词纠正方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]如今,随着网络上的资源越来越丰富,搜索引擎的使用也越来越广泛。但在搜索引擎的使用过程中,用户有时难以给出准确的搜索词,或者因为笔误而造成了输入错误。例如输入的搜索词中的英文单词拼写错误、中文同音字错误,输入的搜索词与正确的搜索词语义相关但文字不相同等情况。从而,搜索引擎会根据错误的搜索词进行搜索,给出与用户期望的内容不同的搜索结果。

技术实现思路

[0004]本申请实施例提供一种搜索词纠正方法、装置、电子设备及计算机存储介质,用以解决现有技术中存在搜索词纠正效果不好的问题。
[0005]第一方面,本申请一实施例提供了一种搜索词纠正方法,包括:
[0006]获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;
[0007]根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;
[0008]过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;
[0009]对所述第二候选词集合中的候选词进行评分;
[0010]根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。
[0011]这样,通过对搜索词进行特征提取,与候选集合中的候选词进行相似度比较后召回,之后再对候选词进行过滤和评分,与现有技术相比提升了对搜索词的召回率的同时保证纠正搜索词准确率,提升了用户体验。
[0012]可选地,所述确定候选集合中不同候选词的特征,包括:
[0013]对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
[0014]将所述各类型的语言元素对应的向量利用长短期记忆人工神经网络LSTM模型进行特征提取;
[0015]将提取特征后得到各类型的语言元素对应的向量合并,得到所述候选词的表征向量;
[0016]其中,所述LSTM模型通过输入样本中有正确纠错关系的候选词,以输出对应的向
量合并得到的表征向量与样本中搜索词的表征向量的相似度符合设定要求为目标进行训练;
[0017]所述对所述搜索词进行特征提取,包括:
[0018]将所述搜索词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
[0019]将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量。
[0020]这样,通过LSTM模型对候选词的特征进行编码与进一步地特征提取向量,最终能够提取得到与具有纠错关系的搜索词更为相似的向量。
[0021]可选地,所述将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量,具体包括:
[0022]将同类型的语言元素对应的向量,合并为该类型的语言元素对应的子向量;
[0023]将不同类型的语言元素的子向量合并,得到所述搜索词的表征向量。
[0024]这样,能够获得搜索词的表征向量,便于后续与候选词的特征进行比较相似度。
[0025]可选地,所述LSTM模型通过如下方式训练得到:
[0026]获取正例样本,所述正例样本包括搜索词和正确纠错词;
[0027]将所述正例样本中的搜索词、正确纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量;
[0028]将针对搜索词提取的向量合并得到所述搜索词的表征向量;
[0029]将针对所述正确纠错词提取的各类型的语言元素对应的向量输入LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述正确纠错词的表征向量;
[0030]根据正确纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数;
[0031]其中,所述正确纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越小。
[0032]这样,通过使用包括搜索词和正确纠错词的正例样本对LSTM模型进行训练,能够使LSTM模型学习到具有纠错关系的搜索词与正确纠错词之间的隐含关系。
[0033]可选地,所述LSTM模型通过如下方式训练得到:
[0034]获取负例样本,所述负例样本包括搜索词和错误纠错词;
[0035]将所述负例样本中的搜索词、错误纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量;
[0036]将针对搜索词提取的向量合并得到所述搜索词的表征向量;
[0037]将针对所述错误纠错词提取的各类型的语言元素对应的向量输入所述LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述错误纠错词的表征向量;
[0038]根据错误纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数;
[0039]其中,所述错误纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越大。
[0040]这样,通过使用包括搜索词和错误纠错词的负例样本对LSTM模型进行训练,能够使LSTM模型学习到不具有纠错关系的搜索词与错误纠错词之间的隐含关系。
[0041]可选地,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
[0042]利用向量检索引擎,确定所述搜索词的表征向量与所述不同候选词的表征向量的余弦相似度;
[0043]按照对应的所述余弦相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
[0044]这样,通过使用向量检索引擎,可以较快地完成搜索。
[0045]可选地,所述对所述搜索词进行特征提取,包括:
[0046]将所述搜索词按照至少一种语言元素的类型进行拆解,得到与所述搜索词对应的各类型的语言元素;
[0047]所述确定候选集合中不同候选词的特征,包括:
[0048]对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,得到与各所述候选词对应的各类型的语言元素。
[0049]这样,通过直接使用拆解得到的语言元素作为特征,不再需要使用LSTM模型进行特征提取,简化了技术方案。
[0050]可选地,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
[0051]利用倒排索引算法,确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种搜索词纠正方法,其特征在于,包括:获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;对所述第二候选词集合中的候选词进行评分;根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。2.如权利要求1所述的方法,其特征在于,所述确定候选集合中不同候选词的特征,包括:对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;将所述各类型的语言元素对应的向量利用长短期记忆人工神经网络LSTM模型进行特征提取;将提取特征后得到各类型的语言元素对应的向量合并,得到所述候选词的表征向量;其中,所述LSTM模型通过输入样本中有正确纠错关系的候选词,以输出对应的向量合并得到的表征向量与样本中搜索词的表征向量的相似度符合设定要求为目标进行训练;所述对所述搜索词进行特征提取,包括:将所述搜索词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量。3.如权利要求2所述的方法,其特征在于,所述将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量,具体包括:将同类型的语言元素对应的向量,合并为该类型的语言元素对应的子向量;将不同类型的语言元素的子向量合并,得到所述搜索词的表征向量。4.如权利要求2所述的方法,其特征在于,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:利用向量检索引擎,确定所述搜索词的表征向量与所述不同候选词的表征向量的余弦相似度;按照对应的所述余弦相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。5.如权利要求1所述的方法,其特征在于,所述对所述搜索词进行特征提取,包括:将所述搜索词按照至少一...

【专利技术属性】
技术研发人员:姚澜罗川江王炜解忠乾孙翠荣
申请(专利权)人:杭州网易云音乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1