System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于语义理解下的高级搜索方法技术_技高网

一种基于语义理解下的高级搜索方法技术

技术编号:40937581 阅读:3 留言:0更新日期:2024-04-18 14:56
本发明专利技术公开了一种基于语义理解下的高级搜索方法,涉及信息搜索技术领域,包括使用知识图谱构建语义关联词表,支持智能提示辅助查询构建;输入多模态信息进行综合查询,结合语音、图像和文本进行语义匹配;建立个性化用户模型,理解并记忆用户搜索意图;对查询进行智能扩展建议,组合涵盖不同语义细节的子查询;进行多源异构图谱融合,丰富潜在语义联想,扩大匹配范围;展示匹配词条之间的语义路径,可视化语义理解过程。本发明专利技术支持多模态查询输入,可以更全面捕获用户意图,可以学习用户长期偏好,做出自适应推断。

【技术实现步骤摘要】

本专利技术涉及信息搜索,特别是一种基于语义理解下的高级搜索方法


技术介绍

1、传统搜索方法主要基于关键词匹配,通过词频、页面排名等统计学习算法实现查询词和文档的匹配程度计算。但随着搜索需求的复杂多样化,keyword匹配方式的局限性日益凸显。为了提高搜索引擎响应各类复杂查询的能力,语义搜索技术应运而生并不断发展。

2、早期的语义搜索主要依赖人工构建的知识库和词汇本体推断查询意图,理解能力受限。近年来,依托知识图谱、深度学习等技术快速发展,语义搜索技术实现了质的飞跃。以知识图谱为基础,结合nlp和其他ai技术,可以实现对查询语义的深层理解,找到更加准确匹配的搜索结果。

3、当前语义搜索技术主要存在两个方面的局限性:对查询的语义理解和表示能力仍然较为薄弱,多依赖简单的词向量或模板匹配,无法精确把握语义内涵;语义匹配策略和模型较为单一,不同类型查询使用同一套匹配方案,优化空间有限。


技术实现思路

1、鉴于上述语义搜索技术中存在的问题,提出了本专利技术。

2、因此,本专利技术所要解决的问题在于如何提供一种增强对查询多样性语义的理解表达能力,构建更合理有效的语义匹配体系的方法。

3、为解决上述技术问题,本专利技术提供如下技术方案:

4、第一方面,本专利技术实施例提供了一种基于语义理解下的高级搜索方法,其包括使用知识图谱构建语义关联词表;输入多模态信息进行综合查询,结合语音、图像和文本进行语义匹配;建立个性化用户模型,理解并记忆用户搜索意图;对查询进行智能扩展建议,组合涵盖不同语义细节的子查询;进行多源异构图谱融合,丰富潜在语义联想,扩大匹配范围;展示匹配词条之间的语义路径,可视化语义理解过程。

5、作为本专利技术所述基于语义理解下的高级搜索方法的一种优选方案,其中:所述输入多模态信息进行综合查询,结合语音、图像和文本进行语义匹选的步骤如下:支持语音查询,自动将语音识别转化为文本;支持上传或拍摄图像进行视觉搜索;

6、对文本使用bert模型编码得到文本语义向量、对语音识别文本使用wav2vec语音模型编码、对图像用视觉模型提取图像语义向量;将不同模态的语义向量映射到共同语义空间,进行跨模态相似度计算;返回多模态关联度最高的查询结果。

7、作为本专利技术所述基于语义理解下的高级搜索方法的一种优选方案,其中:所述将不同模态的语义向量映射到共同语义空间,进行跨模态相似度计算包括,构建一个跨模态对抗网络,包括编码器、映射器和判别器三部分,每个编码器有独立预训练的功能;三个生成器分别将文本、语音和图像特征映射到共享空间,训练判别器判断映射向量的模态源,通过对抗过程逼近语义空间的模态分布;进行跨模态语义空间匹配:计算空间内向量间的相似度;构建相似度分数矩阵,得到归一化的条件概率;定义权重向量,计算文本匹配分数,返回匹配度最高的结果。

8、作为本专利技术所述基于语义理解下的高级搜索方法的一种优选方案,其中:所述建立个性化用户模型,理解并记忆用户搜索意图包括以下步骤:追踪记录用户的搜索查询词、点击文章和停留时长,构建用户-文章点击交互矩阵;使用词向量构建用户兴趣轮廓,训练textcnn模型预测用户主题偏好;输入新查询词,结合用户兴趣轮廓,预测用户当前兴趣主题,并输出查询与各兴趣主题的相关性概率;在候选文章中检索出与当前查询及历史查询相关度最高的数据,返回用户个性化的、与历史意图关联的搜索结果。

9、作为本专利技术所述基于语义理解下的高级搜索方法的一种优选方案,其中:所述预测用户当前兴趣的操作过程为:采集用户搜索词构建词频向量,映射词向量到预定义领域知识图谱概念上,汇总概念词频形成用户语义概要;采用对比学习框架,最大化不同用户向量之间距离,最小化同一用户向量之间距离;输入用户当前搜索词,比较词向量与用户表示距离,并输出邻近用户主题作为推荐。

10、作为本专利技术所述基于语义理解下的高级搜索方法的一种优选方案,其中:所述采用对比学习框架包括:遍历用户概要文件向量集合,判断向量词表大小是否符合词表阈值,若不足则扩展;初始化用户表示矩阵,循环训练使同用户向量距离最小化,不同用户向量距离最大化,并判断是否达到收敛条件,若达到则停止训练,若未达到则继续循环训练;所述词表阈值的设置过程为:初始化词向量矩阵,维度为d,训练语义判别模型,输入词向量,输出划分类别;循环调整判别模型边界:缩小边界,减少类别,分别计算类内距离、类间距离评价指标,放宽边界,增加类别,再次分别计算类内距离、类间距离评价指标;比较不同类别划分下的评价指标,并确定边界和类别数;以最小词表为起点,增加划分类别数;对每一规模词表,计算用户主题推荐的准确值,比较不同词表大小的指标,以准确值作为纵坐标,不同大小的词表作为横坐标,每个词表规模对应一个评价指标值,连接离散点得到评价指标随着词表大小的变化曲线;根据指标曲线的整体变化趋势,在指标值峰值点处选择词表规模。

11、作为本专利技术所述基于语义理解下的高级搜索方法的一种优选方案,其中:所述比较不同类别划分下的评价指标,并确定边界和类别数的过程为:初始化类别数k,得到初始边界,缩小边界,减少类别数到 k1;计算新类别下的数据点间的类内距离 din,计算各类间中心点的类间距离 dout;放宽边界,增加类别数到 k2,新增类别细分原类别,再次计算类内距离 d'in,类间距离 d'out;比较分类效果:如果din>d'in且dout<d'out,则采用细分类边界进行划分;如果 din<d'in且dout>d'out则采用粗分类边界进行划分;重复缩小边界和放宽边界,动态调整类别数,直到找到最优类别数k*,使得类内聚合紧密,类间分离度大。

12、作为本专利技术所述基于语义理解下的高级搜索方法的一种优选方案,其中:所述建立个性化用户模型,理解并记忆用户搜索意图包括以下步骤:收集全量文章,提取关键词,通过word2vec训练获得文章关键词的词向量表示;使用textcnn文本分类模型,输入词向量,输出文章类别预测;所有文章标注主题类别标签,获得文章到主题类别的映射;跟踪用户历史搜索词、点击文章,投影到主题类别空间,将用户兴趣抽象为组合激活的基因组。

13、作为本专利技术所述基于语义理解下的高级搜索方法的一种优选方案,其中:所述将用户兴趣抽象为组合激活的基因组包括:定义多个兴趣主题作为基因,每个用户由多个兴趣基因组成,每个基因为激活状态或抑制状态的一种;提取用户历史搜索词和文章点击,通过词向量技术,编码为输入变量;输入用户行为编码到基因组网络,计算每个兴趣基因的激活程度,得到用户的兴趣基因组激活状态编码;对新输入的搜索词,提取词向量,与用户基因组激活编码拼接作为输入,全连接网络输出用户当前兴趣分布;计算候选文章与用户当前兴趣分布的匹配度,返回给用户相关度最高的文章。

14、作为本专利技术所述基于语义理解下的高级搜索方法的一种优选方案,其中:所述计算每个兴趣基因的激活程度的步骤如下:定义用户的兴趣基因组为[g1, 本文档来自技高网...

【技术保护点】

1.一种基于语义理解下的高级搜索方法,其特征在于:包括:

2.如权利要求1所述的基于语义理解下的高级搜索方法,其特征在于:所述建立个性化用户模型,理解并记忆用户搜索意图包括以下步骤:

3.如权利要求2所述的基于语义理解下的高级搜索方法,其特征在于:所述预测用户当前兴趣的操作过程为:

4.如权利要求3所述的基于语义理解下的高级搜索方法,其特征在于:所述采用对比学习框架包括:

5.如权利要求4所述的基于语义理解下的高级搜索方法,其特征在于:所述比较不同类别划分下的评价指标,并确定边界和类别数的过程为:

6.如权利要求5所述的基于语义理解下的高级搜索方法,其特征在于:所述建立个性化用户模型,理解并记忆用户搜索意图包括以下步骤:

7.如权利要求6所述的基于语义理解下的高级搜索方法,其特征在于:所述将用户兴趣抽象为组合激活的基因组包括:

8.如权利要求7所述的基于语义理解下的高级搜索方法,其特征在于:所述计算每个兴趣基因的激活程度的步骤如下:

【技术特征摘要】

1.一种基于语义理解下的高级搜索方法,其特征在于:包括:

2.如权利要求1所述的基于语义理解下的高级搜索方法,其特征在于:所述建立个性化用户模型,理解并记忆用户搜索意图包括以下步骤:

3.如权利要求2所述的基于语义理解下的高级搜索方法,其特征在于:所述预测用户当前兴趣的操作过程为:

4.如权利要求3所述的基于语义理解下的高级搜索方法,其特征在于:所述采用对比学习框架包括:

5.如权利要求4所述的基于语义理解下的高...

【专利技术属性】
技术研发人员:石龙刘刚何立娟
申请(专利权)人:北京谷器数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1