数据处理方法及装置、存储介质、电子设备制造方法及图纸

技术编号:30765032 阅读:31 留言:0更新日期:2021-11-10 12:22
本公开的实施方式涉及计算机技术领域,更具体地,本公开的实施方式涉及数据处理方法及装置,存储介质和电子设备。所述方法包括:获取搜索文本;基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取;以及根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果;结合所述第一意图评分结果和所述第二意图评分结果确定所述搜索文本的泛搜意图识别结果。本公开的方案在保证意图识别结果准确性的前提下,可以进一步的保证意图识别的效率,提升针对搜索文本的意图识别的速度。升针对搜索文本的意图识别的速度。升针对搜索文本的意图识别的速度。

【技术实现步骤摘要】
数据处理方法及装置、存储介质、电子设备


[0001]本公开的实施方式涉及计算机
,更具体地,本公开的实施方式涉及数据处理方法及装置,存储介质和电子设备。

技术介绍

[0002]本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
[0003]在目前的技术中,用户可以通过在搜索引擎中输入搜索请求来得到期望得到的数据内容。在音乐搜索场景中,用户可以在搜索框中输入搜索请求,例如文字内容;音乐搜索引擎可以根据用户输入的文字进行搜索并提供相应的搜索结果。音乐搜索引擎或者后台服务器在根据用户输入的内容进行数据搜索时,可以根据意图识别来判断用户输入的文字是否属于泛搜索意图。

技术实现思路

[0004]但是,在一些技术中,对于用户输入的搜索请求,意图识别通常只能给出精准的搜索请求意图的识别结果。对于并不明确的搜索请求,搜索引擎根据意图识别结果做召回排序,对于这类泛意图搜索并不能提供准确的搜索结果。
[0005]为此,非常需要一种改进的数据处理方法及装置、存储介质和电子设备,以提供一种能够为准确识别用户的搜索请求是否为泛搜意图的方案。
[0006]在本上下文中,本专利技术的实施方式期望提供一种数据处理方法和装置、存储介质和电子设备。
[0007]根据本公开的一个方面,提供一种数据处理方法,包括:获取搜索文本;
[0008]基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取;以及/>[0009]根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果;
[0010]结合所述第一意图评分结果和所述第二意图评分结果确定所述搜索文本的泛搜意图识别结果。
[0011]在本公开的一种示例性实施例中,所述方法还包括:
[0012]基于预先构建的实体词典确定所述搜索文本对应的热度信息及意图信息,并根据所述热度信息和意图信息确定第三意图识别结果;以用于结合所述第一意图评分结果、所述第二意图评分结果和所述第三意图识别结果确定所述搜索文本的泛搜意图识别结果。
[0013]在本公开的一种示例性实施例中,基于所述搜索文本确定对应的第一意图评分结果,包括:
[0014]基于所述搜索文本查询所述搜索文本历史数据以获取相匹配的历史搜索文本,并将所述历史搜索文本对应的第一意图评分结果配置为当前的所述搜索文本对应的第一意
图评分结果。
[0015]在本公开的一种示例性实施例中,所述基于所述搜索文本对应的语法向量和词向量对应的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果,包括:
[0016]对所述搜索文本进行第二预处理;
[0017]对第二预处理结果进行切词处理,利用预设的单字词典为各切词结果配置对应的标识,并利用各切词结果对应的映射值构建所述词向量;以及
[0018]按预设粒度对所述第二预处理结果进行拆分,利用预设的语法词典配置各拆分结果对应的标识,并利用拆分结果对对应的映射值构建所述语法向量;
[0019]基于所述语法向量对应的编码特征和所述词向量对应的编码特征依次进行卷积处理、池化处理、归一化处理、聚合处理和全连接处理,以获取所述第二意图评分结果。
[0020]在本公开的一种示例性实施例中,
[0021]在本公开的一种示例性实施例中,所述基于预先构建的实体词典确定所述搜索文本对应的热度信息及意图信息,并根据所述热度信息和意图信息确定第三意图识别结果,包括:
[0022]根据所述搜索文本查询所述实体词典以获取对应的匹配结果;
[0023]根据所述匹配结果对应的预设热度值和预设意图值计算所述搜索文本对应的第三意图识别结果。
[0024]在本公开的一种示例性实施例中,所述确定所述搜索文本的泛搜意图识别结果,包括:
[0025]在识别所述第三意图识别结果中的所述意图信息符合预设规则时,且判断所述第三意图识别结果中的所述热度信息大于或等于预设热度阈值,则确定所述搜索文本为非泛搜意图;或者
[0026]在识别所述第三意图识别结果中的所述意图信息符合预设规则时,且判断所述第三意图识别结果中的所述热度信息小于预设热度阈值,则根据所述第一意图识别结果和所述第二意图识别结果计算所述泛搜意图识别结果的概率值;并在概率值达到预设阈值时,确定所述搜索文本为泛搜意图;或者
[0027]在识别所述第三意图识别结果中的所述意图信息不符合预设规则时,则根据所述第一意图识别结果和所述第二意图识别结果计算所述泛搜意图识别结果的概率值;并在概率值达到预设阈值时,确定所述搜索文本为泛搜意图。
[0028]在本公开的一种示例性实施例中,所述方法还包括:
[0029]获取更新数据,并基于所述更新数据更新基础数据库;
[0030]根据预设热度阈值对所述基础数据库中的资源数据进行筛选,以删除热度值小于预设热度阈值的资源数据;
[0031]对所述基础数据库中的各所述资源数据抽取目标字段,对所述目标字段进行归一化处理以获取实体字段;并建立所述实体字段与对应的所述资源数据之间的关联关系;
[0032]基于与所述实体字段存在关联关系的所述资源数据对应的热度信息及意图信息配置所述实体字段的热度信息及意图信息,并根据所述实体字段构建所述实体词典。
[0033]在本公开的一种示例性实施例中,在确定所述搜索文本为泛搜意图时,所述方法还包括:
[0034]对所述搜索文本的分词结果进行标签关联,以根据所述搜索文本分词结果对应的标签关联结果配置所述搜索文本对应的数据标签。
[0035]在本公开的一种示例性实施例中,所述根对所述搜索文本的分词结果进行标签关联,以根据所述搜索文本分词结果对应的标签关联结果配置所述搜索文本对应的数据标签,包括:
[0036]对所述搜索文本进行分词处理,利用预设的业务标签集合为分词结果配置对应的标签,以获取所述搜索文本分词结果对应的标签列表;
[0037]将所述搜索文本对应的对应的文本编码结果,与预设的候选资源进行文本匹配,以获取相似度度大于预设阈值的相似标签结果;
[0038]将所述标签列表与所述相似标签结果进行标签对比,并在所述标签列表与所述匹配结果匹配时,将标签对比结果配置为所述搜索文本对应的标签结果,以用于基于所述搜索文本对应的标签结果进行数据搜索。
[0039]根据本公开的一个方面,提供一种数据处理装置,包括:
[0040]请求响应模块,用于获取搜索文本;
[0041]第一意图评分结果确定模块,用于基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取;以及
[0042]第二意图评分结果确定模块,用于根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果;...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取搜索文本;基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取;以及根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果;结合所述第一意图评分结果和所述第二意图评分结果确定所述搜索文本的泛搜意图识别结果。2.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:基于预先构建的实体词典确定所述搜索文本对应的热度信息及意图信息,并根据所述热度信息和意图信息确定第三意图识别结果;以用于结合所述第一意图评分结果、所述第二意图评分结果和所述第三意图识别结果确定所述搜索文本的泛搜意图识别结果。3.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:对搜索文本历史数据进行第一预处理,以获取目标格式的待处理文本;利用BERT模型抽取所述待处理文本对应的文本表征向量;基于所述文本表征向量进行全连接处理,以获取输出的二维向量;根据所述二维向量确定所述搜索文本历史数据对应的第一意图评分结果。4.根据权利要求3所述的数据处理方法,其特征在于,基于所述搜索文本确定对应的第一意图评分结果,包括:基于所述搜索文本查询所述搜索文本历史数据以获取相匹配的历史搜索文本,并将所述历史搜索文本对应的第一意图评分结果配置为当前的所述搜索文本对应的第一意图评分结果。5.根据权利要求1所述的数据处理方法,其特征在于,所述基于所述搜索文本对应的语法向量和词向量对应的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果,包括:对所述搜索文本进行第二预处理;对第二预处理结果进行切词处理,利用预设的单字词典为各切词结果配置对应的标识,并利用各切词结果对应的映射值构建所述词向量;以及按预设粒度对所述第二预处理结果进行拆分,利用预设的语法词典配置各拆分结果对应的标识,并利用拆分结果对对应的映射值构建所述语法向量;基于所述语法向量对应的编码特征和所述词向量对应的编码特征依次进行卷积处理、池化处理、归一化处理、聚合处理和全连接处理,以获取所述第二意图评分结果。6.根...

【专利技术属性】
技术研发人员:王炜姚澜孙翠荣解忠乾罗川江
申请(专利权)人:杭州网易云音乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1