【技术实现步骤摘要】
基于神经网络的语义搜索方法、装置、设备和存储介质
[0001]本专利技术涉及人工智能
,具体涉及一种基于神经网络的语义搜索方法、装置、设备和存储介质。
技术介绍
[0002]语义搜索作为信息搜索和自然语言处理领域的一个分支,受到的关注越来越多。具体而言,语义搜索引擎能从数亿条文本中,搜索出与用户输入的句子,语义相同或相近的语句,它作为计算机语义理解和人机交互的基础,已广泛应用到智能客服、智能问答、推荐系统等领域,并在这些领域中发挥着重要作用。
[0003]目前,现有的语义搜索引擎多通过文本正则匹配等方式,或者使用词频
‑
逆文本频率指数(Term Frequency
–
Inverse Document Frequency,TF
‑
IDF)等简单算法计算输入语句与搜索库中的语句之间的文本相似度,从而实现语义搜索。
[0004]但是,上述语义搜索引擎所使用的语义分析方式无法真正理解文本语义,导致搜索准确率低。且现有的语义搜索引擎系统将数亿条文本存储于搜索库 ...
【技术保护点】
【技术特征摘要】
1.一种基于神经网络的语义搜索方法,其特征在于,所述方法包括:获取语料库,其中,所述语料库中包括至少一个训练语料,且所述至少一个训练语料中的每个训练语料对应的业务类型相同;将所述至少一个训练语料输入预先设置的组合神经网络中进行训练,得到语义提取模型,其中,所述组合神经网络由至少两个子神经网络组成,且所述至少两个子神经网络中包括至少一个模型生成神经网络和至少一个模型优化神经网络,所述模型优化神经网络用于优化所述模型生成神经网络生成的模型;将所述至少一个训练语料中的每个训练语料输入所述语义提取模型,得到至少一个语料语义向量,其中,所述至少一个语料语义向量和所述至少一个训练语料一一对应;根据所述至少一个训练语料中的每个训练语料进行实体生成,得到至少一个实体,并将所述至少一个实体和所述至少一个语料语义向量存入分布式搜索服务器,其中,所述至少一个实体和所述至少一个训练语料一一对应;获取搜索请求,所述搜索请求包括待搜索文本;将所述待搜索文本输入所述语义提取模型,得到搜索语义向量;将所述搜索语义向量传入所述分布式搜索服务器进行语义搜索,得到搜索结果。2.根据权利要求1所述的方法,其特征在于,所述至少两个子神经网络包括:老师神经网络、学生神经网络、卷积神经网络;所述将所述至少一个训练语料输入预先设置的组合神经网络中进行训练,得到语义提取模型,包括:将所述至少一个训练语料输入所述老师神经网络进行训练,得到第一模型;根据所述学生神经网络,对所述第一模型进行蒸馏处理,得到第二模型;将所述卷积神经网络与所述第二模型进行融合参数微调训练,得到第三模型,其中,所述第三模型为参数微调后的第二模型;对所述第三模型进行白化处理,得到所述语义提取模型。3.根据权利要求2所述的方法,其特征在于,所述将所述卷积神经网络与所述第二模型进行融合参数微调训练,得到第三模型,包括:将所述第二模型的输出向量输入所述卷积神经网络的一维卷积层,得到至少一个第一向量;对所述至少一个第一向量中的每个第一向量进行最大池化,并将最大池化后的所述每个第一向量进行拼接,得到第二向量;将所述第二向量输入所述卷积神经网络的全连接层,得到第一矩阵;通过回归模型对所述第一矩阵进行分类,并根据分类结果对所述第二模型进行优化调整,得到所述第三模型。4.根据权利要求2所述的方法,其特征在于,所述对所述第三模型进行白化处理,包括:根据所述第三模型的输出向量x
i
,确定第一参数u,其中,所述第三模型的输出向量x
i
和所述第一参数u满足以下公式:其中,所述N为所述第三模型的输出向量x
i
中元素的数量;
确定所述第三模型的输出向量x
i
的协方差矩阵A;对所述第三模型的输出向量的协方差矩阵A进行奇异值分解,得到第一特征矩阵B和第二特征矩阵C,其中,所述第三模型的输出向量的协方差矩阵A、所述第一特征矩阵B和所述第二特征矩阵C满足以下公式:A=BCB
T
其中,B
T
表示所述第一特征矩阵B的转置矩阵;根据所述第一特征矩阵B和所述第二特征矩阵C,确定第二参数W,其中,所述第二参数W、所述第一特征矩阵B和所述第二特征矩阵C满足以下公式:根据所述第一参数u和所述第二参数W,对所述第三模型的输出向量x
i
进行白化处理,得到白化向量其中,所述第一参数u、所述第二参数W、所述第三模型的输出向量x
i
和所述白化向...
【专利技术属性】
技术研发人员:刘波,王彦,马骏,王少军,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。