搜索内容输出方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:24853850 阅读:23 留言:0更新日期:2020-07-10 19:07
本发明专利技术公开了一种搜索内容输出方法、装置、计算机设备及可读存储介质,涉及互联网技术领域,获取待搜索信息的信息切词、实体标识以及语义向量,进而获取包括信息切词的第一候选内容,获取实体标识对应的和/或相似度大于第一相似度阈值的第二候选内容,并获取与语义向量的相似度大于第二相似度阈值的第三候选内容,以便输出搜索内容,使得利用多条搜索链路搜索,打破局限性,避免素材的浪费,提高了成功率和准确率。所述方法包括:对待搜索信息进行解析,得到待搜索信息的信息切词、实体标识以及语义向量;获取包括信息切词的第一候选内容;基于实体标识,获取第二候选内容;获取向量模型输出的第三候选内容;生成搜索内容,将搜索内容输出。

【技术实现步骤摘要】
搜索内容输出方法、装置、计算机设备及可读存储介质
本专利技术涉及互联网
,特别是涉及一种搜索内容输出方法、装置、计算机设备及可读存储介质。
技术介绍
近年来,随着互联网技术的快速发展,各种互联网应用广泛深入各类领域,大数据呈现爆炸式增长,海量的数据和信息分散于网络空间,当用户需要获取信息和数据时,可以通过搜索平台进行信息搜索,从而使搜索平台可以输出相关的搜索内容。搜索平台作为用户与信息之间的重要纽带,一般会提供多种多样的搜索方式,例如,文本搜索、语音搜索、图片搜索、视频搜索等,这客观上形成了多模的用户交互方式,满足用户的多样化需求。相关技术中,搜索平台中会预置大量用于搜索的素材,当接收到用户请求进行内容搜索时,在这些预置的素材中搜索与用户请求进行内容搜索相关的素材,将这些相关素材作为搜索内容输出给用户,以供用户参考。在实现本专利技术的过程中,专利技术人发现相关技术至少存在以下问题:搜索平台中预置的用于搜索的素材是多种多样的,有诸如名称、类目、地址、评论等文本形式的素材,也有诸如环境图、物品图、地址图等图片形本文档来自技高网...

【技术保护点】
1.一种搜索内容输出方法,其特征在于,包括:/n对待搜索信息进行解析,得到所述待搜索信息的信息切词、实体标识以及语义向量;/n获取包括所述信息切词的第一候选内容;/n基于所述实体标识,获取第二候选内容,所述第二候选内容至少为所述实体标识对应的和/或与所述实体标识的相似度大于第一相似度阈值的样本实体;/n将所述语义向量输入至向量模型,获取所述向量模型输出的第三候选内容,所述向量模型是采用文本素材、语音素材以及视频素材建立的,所述第三候选内容与所述语义向量的相似度大于第二相似度阈值;/n根据所述第一候选内容、所述第二候选内容和所述第三候选内容,生成搜索内容,将所述搜索内容输出。/n

【技术特征摘要】
1.一种搜索内容输出方法,其特征在于,包括:
对待搜索信息进行解析,得到所述待搜索信息的信息切词、实体标识以及语义向量;
获取包括所述信息切词的第一候选内容;
基于所述实体标识,获取第二候选内容,所述第二候选内容至少为所述实体标识对应的和/或与所述实体标识的相似度大于第一相似度阈值的样本实体;
将所述语义向量输入至向量模型,获取所述向量模型输出的第三候选内容,所述向量模型是采用文本素材、语音素材以及视频素材建立的,所述第三候选内容与所述语义向量的相似度大于第二相似度阈值;
根据所述第一候选内容、所述第二候选内容和所述第三候选内容,生成搜索内容,将所述搜索内容输出。


2.根据权利要求1所述的方法,其特征在于,所述对待搜索信息进行解析,得到所述待搜索信息的信息切词、实体标识以及语义向量之前,所述方法还包括:
获取样本信息,对所述样本信息中的素材进行解析,得到样本特征向量,所述样本信息至少为历史操作信息和/或预置信息;
采用排序算法对所述样本特征向量进行学习,生成多个样本向量组,所述样本向量组至少是由所述样本特征向量中的搜索词向量、第一名称向量和第二名称向量组成的三元组,所述第一名称向量为所述样本特征向量中与所述搜索词向量匹配的名称向量,所述第二名称向量为所述样本特征向量中与所述搜索词向量匹配的名称向量;
分别将所述多个样本向量组输入至语义匹配模型,获取所述语义匹配模型的隐含层中最后一层的输出向量,得到所述多个样本向量组的多个输出向量;
将所述多个输出向量作为所述向量模型。


3.根据权利要求2所述的方法,其特征在于,所述对所述样本信息中的素材进行解析,得到样本特征向量,包括:
在所述样本信息的素材中提取所述语音素材,调用语音识别算法对所述语音素材进行识别,得到预备文本素材;
在所述样本信息的素材中提取所述视频素材,采用视频关键帧提取算法对所述视频素材进行提取,得到预备图片素材;
在所述样本信息的素材中提取原有文本素材,采用语义训练算法对所述原有文本素材和所述预备文本素材进行训练,得到文本特征向量;
在所述样本信息的素材中提取原有图片素材,运行图片特征提取器,将所述原有图片素材和所述预备图片素材所属的实体类目作为所述图片特征提取器的第一提取目标,按照所述第一提取目标对所述原有图片素材和所述预备图片素材进行学习,将所述图片特征提取器中最后一层的特征向量作为图片特征向量;
将所述文本特征向量和所述图片特征向量作为所述样本特征向量。


4.根据权利要求1所述的方法,其特征在于,所述对待搜索信息进行解析,得到所述待搜索信息的信息切词、实体标识以及语义向量,包括:
按照分词模板,对所述待搜索信息进行词语分割,得到所述信息切词;
建立实体识别任务,将所述待搜索信息的搜索类型作为所述实体识别任务的识别方向对所述待搜索信息进行识别,得到所述实体标识;
确定所述待搜索信息的信息类型,按照所述信息类型对所述待搜索信息进行识别,得到所述语义向量。


5.根据权利要求4所述的方法,其特征在于,所述按照所述信息类型对所述待搜索信息进行识别,得到所述语义向量,包括:
若所述信息类型为文本类型,则采用语义训练算法对所述待搜索信息进行识别,将识别得到的特征向量作为所述语义向量;
若所述信息类型为语音类型,则调用语音识别算法对所述待搜索信息进行识别,得到文本类型的所述待搜索信息,并采用所述语义训练算法对文本类型的所述待搜索信息进行识别,将识别得到的特征向量作为所述语义向量;
若所述信息类型为图片类型,则运行图片特征提取器,将所述待搜索信息所属的实体类目作为所述图片特征提取器的第二提取目标,按照所述第二提取目标对所述待搜索信息进行学习,将所述图片特征提取器中最后一层的特征向量作为所述语义...

【专利技术属性】
技术研发人员:苑爱泉王磊王晓峰芦亚飞王宇昊何旺贵桑梓森孙靓徐花李向阳
申请(专利权)人:浙江口碑网络技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1