基于自然语言的搜索方法和系统技术方案

技术编号:39755311 阅读:5 留言:0更新日期:2023-12-17 23:54
本发明专利技术实施例涉及人工智能技术领域,具体公开了基于自然语言的搜索方法及系统,在基于自然语言处理从搜索文本中确定原始搜索对象关键词和原始搜索意图关键词后,扩充得到目标搜索对象关键词和目标搜索意图关键词,从图像库中确定出对象标签与目标搜索对象关键词匹配的图像得到第一候选图像集;从第一候选图像集中确定出对象描述标签与目标搜索意图关键词匹配的图像得到第二候选图像集,采用原始搜索对象关键词

【技术实现步骤摘要】
基于自然语言的搜索方法和系统


[0001]本专利技术属于人工智能
,尤其涉及基于自然语言的搜索方法和系统


技术介绍

[0002]在多媒体和大数据技术发展的推动下,用户将各种图像分享到大数据平台,其他用户可以在网络中搜索用户所分享的图像

[0003]目前,用户搜索图像时主要是在搜索框中输入文本,通过文本表达所需要搜索的图像,搜索引擎接收到用户输入的文本时,对输入文本进行分词,然后基于分词分别搜索图像返回给用户,导致搜索引擎所返回的图像中存在较多不符合用户搜索意图的图像


技术实现思路

[0004]本专利技术实施例的目的在于提供基于自然语言的搜索方法和系统,旨在解决
技术介绍
中搜索图像时搜索引擎无法识别用户搜索意图,导致搜索结果存在较多不符合用户搜索意图的图像的问题

[0005]为实现上述目的,本专利技术实施例提供如下技术方案:基于自然语言的搜索方法,用于搜索图像,所述方法具体包括以下步骤:接收用户在图像搜索页面输入的搜索文本;基于自然语言处理从所述搜索文本中确定原始搜索对象关键词和至少一个原始搜索意图关键词;对所述原始搜索对象关键词和所述原始搜索意图关键词进行扩充,得到至少一个目标搜索对象关键词和至少一个目标搜索意图关键词;从图像库中确定出对象标签与所述目标搜索对象关键词匹配的图像,得到第一候选图像集,所述图像库中每张图像设置有对象标签和至少一个对象描述标签,所述对象标签和所述对象描述标签为预先设置的所述图像的标签;针对所述第一候选图像集中的每张图像,确定出所述对象描述标签与所述目标搜索意图关键词匹配的图像,得到第二候选图像集;采用所述原始搜索对象关键词

所述原始搜索意图关键词

所述对象标签以及所述对象描述标签计算所述第二候选图像集中图像的分数;将所述第二候选图像集中分数最高的
N
张图像作为搜索结果返回给用户

[0006]作为本专利技术实施例技术方案进一步的限定,在基于自然语言处理从所述搜索文本中确定原始搜索对象关键词和至少一个原始搜索意图关键词之前,还包括以下步骤:对所述搜索文本进行预处理,得到预处理后的搜索文本

[0007]作为本专利技术实施例技术方案进一步的限定,所述基于自然语言处理从所述搜索文本中确定原始搜索对象关键词和至少一个原始搜索意图关键词,具体包括以下步骤:基于依存句法分析确定所述搜索文本中每个词的词性;确定出词性为名词的词作为候选搜索对象关键词;
将候选搜索对象关键词中排序在指定位置的词确定为原始搜索对象关键词;将所述搜索文本中在所述原始搜索对象关键词之前的词性为名词

形容词

副词

动词确定为原始搜索意图关键词

[0008]作为本专利技术实施例技术方案进一步的限定,所述基于自然语言处理从所述搜索文本中确定原始搜索对象关键词和至少一个原始搜索意图关键词,具体包括以下步骤:基于依存句法分析确定所述搜索文本中每个词的词性,以及确定每个词在所述搜索文本中的位置;将所述搜索文本

所述词性以及所述位置输入关键词分类模型中,得到原始搜索对象关键词和至少一个原始搜索意图关键词

[0009]作为本专利技术实施例技术方案进一步的限定,所述关键词分类模型通过以下步骤训练:获取训练语句,所述训练语句为用户搜索图片时输入的语句,所述训练语句中标注有每个词的词性

位置以及标注类别;将所述训练语句输入关键词分类模型中,得到每个词的预测类别;采用所述标注类别和预测类别计算损失率;在所述损失率小于预设阈值时,停止对所述关键词分类模型进行训练,得到关键词分类模型;在所述损失率大于预设阈值时,根据所述损失率更新所述关键词分类模型的参数,返回将所述训练语句输入关键词分类模型中的步骤;其中,所述损失率计算公式如下:;
LABEL
i
为第
i
个词的标注类别,
TYPE
i
为第
i
个词的预测类别,
w
i
为第
i
个词的权重,其中,在第
i
个词的词性为名词且在所述搜索文本中的位置
n
时,
w
i
=0.5
,在第
i
个词的位置不是
n
时,
w
i
=0.2。
[0010]作为本专利技术实施例技术方案进一步的限定,所述对所述原始搜索对象关键词和所述原始搜索意图关键词进行扩充得到至少一个目标搜索对象关键词和至少一个目标搜索意图关键词,具体包括以下步骤:获取所述原始搜索对象关键词的同义词和近义词,将所述原始搜索对象关键词的同义词

近义词以及所述原始搜索对象关键词确定为目标搜索对象关键词;获取所述原始搜索意图关键词的同义词和近义词,将所述原始搜索意图关键词的同义词

近义词以及所述原始搜索意图关键词确定为目标搜索意图关键词

[0011]作为本专利技术实施例技术方案进一步的限定,所述从图像库中确定出对象标签与所述目标搜索对象关键词匹配的图像,得到第一候选图像集,具体包括以下步骤:获取所述图像库中每张图像的对象标签,所述对象标签表示所述图像所包含的主要对象;在预设的搜索对象关键词知识图谱中确定所述对象标签的第一节点

所述目标搜索对象关键词的第二节点,以及确定所述第一节点到所述第二节点的边线,所述搜索对象
关键词知识图谱中每个节点设置有节点值,每条边线设置有权重;计算所述第一节点的节点值

所述第二节点的节点值

所述边线的权重的乘积,得到多个第一相似度;在任意一个第一相似度大于预设阈值时,将所述图像添加到第一候选图像集中,得到第一候选图像集

[0012]作为本专利技术实施例技术方案进一步的限定,所述针对所述第一候选图像集中的每张图像,确定出所述对象描述标签与所述目标搜索意图关键词匹配的图像,得到第二候选图像集,具体包括以下步骤:获取所述第一候选图像集中每张图像的对象描述标签,所述对象描述标签用于描述所述图像中包含的主要对象;在预设的搜索意图知识图谱中确定所述对象描述标签的第一节点

所述目标搜索意图关键词的第二节点,以及确定所述第一节点到所述第二节点的边线,所述搜索意图知识图谱中每个节点设置有节点值,每条边线设置有权重;计算所述第一节点的节点值

所述第二节点的节点值

所述边线的权重的乘积,得到多个第二相似度;在任意一个第二相似度大于预设阈值时,将所述图像添加到第二候选图像集中,得到第二候选图像集

[0013]作为本专利技术实施例技术方案进一步的限定,所述采用所述原始搜索对象关键词

所述原始搜索意图关键词
、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于自然语言的搜索方法,其特征在于,用于搜索图像,所述方法具体包括以下步骤:接收用户在图像搜索页面输入的搜索文本;基于自然语言处理从所述搜索文本中确定原始搜索对象关键词和至少一个原始搜索意图关键词;对所述原始搜索对象关键词和所述原始搜索意图关键词进行扩充,得到至少一个目标搜索对象关键词和至少一个目标搜索意图关键词;从图像库中确定出对象标签与所述目标搜索对象关键词匹配的图像,得到第一候选图像集,所述图像库中每张图像设置有对象标签和至少一个对象描述标签,所述对象标签和所述对象描述标签为预先设置的所述图像的标签;针对所述第一候选图像集中的每张图像,确定出所述对象描述标签与所述目标搜索意图关键词匹配的图像,得到第二候选图像集;采用所述原始搜索对象关键词

所述原始搜索意图关键词

所述对象标签以及所述对象描述标签计算所述第二候选图像集中图像的分数;将所述第二候选图像集中分数最高的
N
张图像作为搜索结果返回给用户
。2.
根据权利要求1所述的基于自然语言的搜索方法,其特征在于,在基于自然语言处理从所述搜索文本中确定原始搜索对象关键词和至少一个原始搜索意图关键词之前,还包括以下步骤:对所述搜索文本进行预处理,得到预处理后的搜索文本
。3.
根据权利要求1所述的基于自然语言的搜索方法,其特征在于,所述基于自然语言处理从所述搜索文本中确定原始搜索对象关键词和至少一个原始搜索意图关键词,具体包括以下步骤:基于依存句法分析确定所述搜索文本中每个词的词性;确定出词性为名词的词作为候选搜索对象关键词;将候选搜索对象关键词中排序在指定位置的词确定为原始搜索对象关键词;将所述搜索文本中在所述原始搜索对象关键词之前的词性为名词

形容词

副词

动词确定为原始搜索意图关键词
。4.
根据权利要求1所述的基于自然语言的搜索方法,其特征在于,所述基于自然语言处理从所述搜索文本中确定原始搜索对象关键词和至少一个原始搜索意图关键词,具体包括以下步骤:基于依存句法分析确定所述搜索文本中每个词的词性,以及确定每个词在所述搜索文本中的位置;将所述搜索文本

所述词性以及所述位置输入关键词分类模型中,得到原始搜索对象关键词和至少一个原始搜索意图关键词
。5.
根据权利要求4所述的基于自然语言的搜索方法,其特征在于,所述关键词分类模型通过以下步骤训练:获取训练语句,所述训练语句为用户搜索图片时输入的语句,所述训练语句中标注有每个词的词性

位置以及标注类别;将所述训练语句输入关键词分类模型中,得到每个词的预测类别;
采用所述标注类别和预测类别计算损失率;在所述损失率小于预设阈值时,停止对所述关键词分类模型进行训练,得到关键词分类模型;在所述损失率大于预设阈值时,根据所述损失率更新所述关键词分类模型的参数,返回将所述训练语句输入关键词分类模型中的步骤;其中,所述损失率计算公式如下:;
LABEL
i
为第
i
个词的标注类别,
TYPE
i
为第
i
个词的预测类别,
w
i
为第
i
个词的权重,其中,在第
i
个词的词性为名词且在所述搜索文本中的位置
n
时,
w
i
=0.5
,在第
i
个词的位置不是
n
时,
w
i
=0.2。6.
根据权利要求1所述的基于自然语言的搜索方法,其特征在于,所述对所述原始搜索对象关键词和所述原始搜索意图关键词进行扩充得到至少一个目标搜索对象关键词和至少一个目标搜索意图关键词,具体包括以下步骤:获取所述原始搜索对象关键词的同义词和近义词,将所述原始搜索对象关键词的同义词

近义词以及所述原始搜索对象关键词确定为目标搜索对象关键词;获取所述原始搜索意图关键词的同义词和近义词,将所述原始搜索意图关键词的同义词

近义词以及所述原始搜索...

【专利技术属性】
技术研发人员:谭卓伟邓海超
申请(专利权)人:广州索明信息科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1