【技术实现步骤摘要】
用于语义搜索的语义相似度确定和语义搜索方法及装置
[0001]本说明书实施例通常涉及计算机
,尤其涉及用于语义搜索的语义相似度确定和语义搜索方法及装置。
技术介绍
[0002]随着人工智能技术的飞速发展,语义搜索技术逐渐取得越来越广泛的应用。为了实现在大量文本中找到与输入的文本语义相近的文本,通常需要借助于各种文本向量化方法,将文本转化为语义特征向量的形式,再通过向量之间的相似度计算来确定文本之间的相似度。现有的文本语义相似度计算方法中,通常采用诸如优化预训练或微调(fine tuning)方式以期望提高语义表征的准确性。但由于训练过程中相似的语义表征会呈现出聚类效果,因而在困难样本(hard sample)上所得到的语义特征向量的区分度较差,从而影响语义搜索的准确率,尤其是较高难度样本下的语义搜索的准确率。
技术实现思路
[0003]鉴于上述,本说明书实施例提供了一种用于语义搜索的语义相似度确定和语义搜索方法和装置。利用该方法、装置,可以实现对用于语义搜索的语义相似度的确定,以提高语义相似度的确定准确 ...
【技术保护点】
【技术特征摘要】
1.一种用于语义搜索的语义相似度确定方法,包括:获取待查询文本的各个分词的语义特征向量和参考文本的各个分词的语义特征向量;将所述待查询文本的各个分词的语义特征向量和所述参考文本的各个分词的语义特征向量分别提供给多类目语义特征向量生成模型,得到所述待查询文本和所述参考文本在各个类目下的类目语义特征向量;从所述待查询文本的类目语义特征向量中选择具有最强搜索意图的第一类目语义特征向量以及从所述参考文本的类目语义特征向量中选择所述第一类目语义特征向量所在类目下的第二类目语义特征向量;以及根据所述第一类目语义特征向量和所述第二类目语义特征向量,确定所述待查询文本和所述参考文本之间的语义相似度。2.如权利要求1所述的语义相似度确定方法,其中,所述多类目语义特征向量生成模型包括多个子模型,每个子模型对应一个类目,所述将所述待查询文本的各个分词的语义特征向量和所述参考文本的各个分词的语义特征向量分别提供给多类目语义特征向量生成模型,得到所述待查询文本和所述参考文本在各个类目下的类目语义特征向量包括:将所述待查询文本的各个分词的语义特征向量和所述参考文本的各个分词的语义特征向量分别提供给各个子模型,得到所述待查询文本和所述参考文本在各个类目下的类目语义特征向量。3.如权利要求2所述的语义相似度确定方法,其中,所述子模型还包括基于动态路由机制的胶囊网络,所述将所述待查询文本的各个分词的语义特征向量和所述参考文本的各个分词的语义特征向量分别提供给各个子模型,得到所述待查询文本和所述参考文本在各个类目下的类目语义特征向量包括:分别基于动态路由机制将所述待查询文本的各个分词的语义特征向量和所述参考文本的各个分词的语义特征向量提供给各个胶囊,得到所述待查询文本和所述参考文本在各个类目下的类目语义特征向量。4.如权利要求2所述的语义相似度确定方法,其中,每个子模型包括基于双曲正切函数的挤压处理层。5.如权利要求1所述的语义相似度确定方法,其中,所述获取待查询文本的各个分词的语义特征向量和参考文本的各个分词的语义特征向量包括:将待查询文本的各个分词和参考文本的各个分词分别提供给基于Transformers的双向编码器,得到所述待查询文本的各个分词的语义特征向量和所述参考文本的各个分词的语义特征向量。6.如权利要求1到5中任一所述的语义相似度确定方法,其中,所述多类目语义特征向量生成模型在模型训练过程中采用的损失函数基于输入的样本文本对所得到的第一类目语义特征向量和第二类目语义特征向量之间的语义相似度与所述样本文本对对应的相似度标签之间的差异得到。7.一种语义搜索方法,包括:接收用户提供的待查询文本;
根据如权利要求1到6中任一所述的语义相似度确定方法,确定所述待查询文本和参考文本集中的各个参考文本之间的语义相似度;基于所述待查询文本和各个参考文本之间的语义相似度,从所述参考文本集中确定出语义搜索结果;以及将所述语义搜索结果提供给所述用户。8.如权利要求7所述的语义搜索方法,其中,所述语义搜索方法应用于服务搜索,以及各个类目包括各个服务类目。9.一种用于语...
【专利技术属性】
技术研发人员:单虹毓,张祺深,冯媛媛,卢宏亮,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。