【技术实现步骤摘要】
一种数据处理方法、装置、计算机设备以及可读存储介质
[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、计算机设备以及可读存储介质。
技术介绍
[0002]目前的查询问答场景可以在搜索查询文本时,直接获取与查询文本相匹配的多媒体数据,进而在搜索结果页中直接推荐与查询文本相匹配的多媒体数据。然而,在将与查询文本相匹配的多媒体数据作为针对查询文本的查询结果时,使得针对查询文本的查询结果的内容过于单一。此外,若需要搜索多个相互有关联的查询文本(例如,既搜索查询文本“土豆红烧肉的好吃做法”,又搜索查询文本“土豆牛腩的好吃做法”),则必须要分别输入两次搜索关键词(即查询文本)才能获取到每个搜索关键词分别匹配的多媒体数据,从而降低了查询效率。
技术实现思路
[0003]本申请实施例提供一种数据处理方法、装置、计算机设备以及可读存储介质,可以丰富针对查询文本的查询结果,且提高查询效率。
[0004]本申请实施例一方面提供了一种数据处理方法,包括:
[0005]获取与查询文本相关联的候选文本 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取与查询文本相关联的候选文本;所述候选文本是对所述查询文本进行文本变化后所得到的;根据所述候选文本和所述查询文本,在主题数据库中确定满足针对所述查询文本的主题横向扩展条件的扩展热点主题;所述主题数据库包括M个热点主题以及基于M个所述热点主题进行下位实体挖掘所得到的下位实体集合;所述M为正整数;所述下位实体集合中的下位实体与M个所述热点主题之间具有语义上下位关系;在所述下位实体集合中获取与所述扩展热点主题相关联的扩展下位实体,根据所述扩展下位实体和所述扩展热点主题,确定与所述扩展热点主题相关联的检索文本,根据所述检索文本和所述扩展热点主题获取横向扩展多媒体数据;所述横向扩展多媒体数据属于响应针对所述查询文本的查询结果。2.根据权利要求1所述的方法,其特征在于,所述获取与查询文本相关联的候选文本,包括:从换词数据库中获取与查询文本相关联的查询词更换信息;根据所述查询词更换信息对所述查询文本进行文本替换,得到与所述查询文本相关联的候选文本;则所述根据所述候选文本和所述查询文本,在主题数据库中确定满足针对所述查询文本的主题横向扩展条件的扩展热点主题,包括:将所述候选文本与所述主题数据库中的M个所述热点主题进行匹配,若在M个所述热点主题中存在与所述候选文本相匹配的热点主题,则将所述候选文本作为与所述查询文本相关联的辅助热点主题;根据所述辅助热点主题和所述查询文本,确定满足主题横向扩展条件的扩展热点主题。3.根据权利要求1所述的方法,其特征在于,所述获取与查询文本相关联的候选文本,包括:对查询文本进行语义标注,得到所述查询文本中的文本主体;将所述文本主体与所述下位实体集合中的下位实体进行匹配,若在所述下位实体集合中存在与所述文本主体相匹配的下位实体,则将所述文本主体在所述主题数据库中对应的热点主题,作为与所述查询文本相关联的候选文本;则所述根据所述候选文本和所述查询文本,在主题数据库中确定满足针对所述查询文本的主题横向扩展条件的扩展热点主题,包括:在所述主题数据库中获取与所述候选文本相关联的关联热点主题,将所述候选文本和所述关联热点主题,作为与所述查询文本相关联的辅助热点主题;根据所述辅助热点主题和所述查询文本,确定满足主题横向扩展条件的扩展热点主题。4.根据权利要求1所述的方法,其特征在于,所述根据所述候选文本和所述查询文本,在主题数据库中确定满足针对所述查询文本的主题横向扩展条件的扩展热点主题,包括:根据所述候选文本,在主题数据库中获取与所述查询文本相关联的辅助热点主题;所述辅助热点主题的数量为S个,所述S为正整数;
获取S个所述辅助热点主题分别对应的候选特征向量和所述查询文本对应的查询特征向量,确定所述查询特征分量分别和S个所述候选特征向量之间的向量相似度;获取针对所述查询文本的主题横向扩展条件,从S个所述向量相似度中获取满足所述主题横向扩展条件的向量相似度,将获取到的向量相似度作为辅助向量相似度;将所述辅助向量相似度对应的辅助热点主题,作为满足所述主题横向扩展条件的扩展热点主题。5.根据权利要求4所述的方法,其特征在于,所述获取针对所述查询文本的主题横向扩展条件,从S个所述向量相似度中获取满足所述主题横向扩展条件的向量相似度,将获取到的向量相似度作为辅助向量相似度,包括:获取针对所述查询文本的主题横向扩展条件;所述主题横向扩展条件包括第一相似度阈值和第二相似度阈值,所述第一相似度阈值大于所述第二相似度阈值;从S个所述向量相似度中获取小于所述第一相似度阈值、且大于所述第二相似度阈值的向量相似度,得到候选向量相似度;将所述候选向量相似度中的最大向量相似度,作为满足所述主题横向扩展条件的辅助向量相似度。6.根据权利要求1所述的方法,其特征在于,所述在所述下位实体集合中获取与所述扩展热点主题相关联的扩展下位实体,根据所述扩展下位实体和所述扩展热点主题,确定与所述扩展热点主题相关联的检索文本,包括:对所述扩展热点主题进行语义标注,得到所述扩展热点主题中的扩展主体;在所述下位实体集合中获取与所述扩展主体相关联的下位实体,将获取到的下位实体作为与所述扩展热点主题相关联的扩展下位实体;根据所述扩展下位实体对所述扩展热点主题中的所述扩展主体进行替换,得到与所述扩展热点主题相关联的检索文本;或者,对所述扩展热点主题和所述扩展下位实体进行拼接,得到与所述扩展热点主题相关联的检索文本。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取候选热点标签,将所述候选热点标签输入至语义分类模型,通过所述语义分类模型对所述候选热点标签进行特征提取,得到所述候选热点标签对应的语义特征向量;根据所述语义特征向量确定所述候选热点标签和所述语义分类模型中的样本类型特征之间的匹配度;所述匹配度用于描述所述候选热点标签属于所述样本类型特征对应的样本标签的概率;将具有最大匹配度的样本类型特征所对应的样本标签,作为所述候选热点标签的目标类型;若所述目标类型为主题类型,则将所述候选热点标签作为所述主题数据库中的热点主题。8.根据权利要求7所述的方法,其特征在于,所述获取候选热点标签,包括:获取对象查询数据库中的历史查询文本;根据所述对...
【专利技术属性】
技术研发人员:钟尚儒,宋泓臻,房育勋,陈玉光,任鹏旭,梁海金,张晓婧,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。