【技术实现步骤摘要】
数据处理方法、装置及设备
[0001]本文件涉及数据处理
,尤其涉及一种数据处理方法、装置及设备。
技术介绍
[0002]文本匹配在自然语言处理领域中占据十分重要的位置,如在问答系统、搜索引擎等应用场景中,可以在多个文本中搜索与待匹配文本相似的文本。
[0003]可以通过计算两个文本之间的余弦距离的方式,确定多个文本中与待匹配文本相似的文本,但是,在待匹配文本的数据量越来越大,数据结构越来越复杂的情况下,通过上述方式进行相似文本搜索的搜索效率和搜索准确性差,因此,需要一种能够提高相似文本检索效率和检索准确性的方案。
技术实现思路
[0004]本说明书实施例的目的是提供一种能够提高相似文本检索效率和检索准确性的方案。
[0005]为了实现上述技术方案,本说明书实施例是这样实现的:
[0006]第一方面,本说明书实施例提供的一种数据处理方法,包括:接收针对目标文本数据的相似文本检索请求;响应于所述相似文本检索请求,获取基于训练后的目标模型得到的所述目标文本数据包含的语句对应的第一特征 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,包括:接收针对目标文本数据的相似文本检索请求;响应于所述相似文本检索请求,获取基于训练后的目标模型得到的所述目标文本数据包含的语句对应的第一特征向量、所述目标文本数据包含的语句对应的预测类别、候选文本数据包含的语句对应的第二特征向量,以及所述候选文本数据包含的语句对应的预测类别;基于所述目标文本数据包含的语句对应的第一特征向量、所述目标文本数据包含的语句对应的预测类别、所述候选文本数据包含的语句对应的第二特征向量,以及所述候选文本数据包含的语句对应的预测类别,确定所述目标文本数据和所述候选文本数据之间的目标相似度;基于所述目标相似度,从所述候选文本数据中筛选出与所述目标文本数据存在匹配关系的候选文本数据,并将所述筛选出的候选文本数据确定为针对所述目标文本数据的相似文本检索结果;其中,所述目标模型为通过第一文本数据样本、第二文本数据样本、所述第一文本数据样本包含的语句对应的类别标签,以及由第一损失值和第二损失值确定的目标损失值进行迭代训练得到,所述第一损失值用于表征所述目标模型在语句级别的分类准确性,所述第二损失值用于表征所述目标模型在语句级别的特征提取准确性。2.根据权利要求1所述的方法,所述获取基于训练后的目标模型得到的所述目标文本数据包含的语句对应的第一特征向量、所述目标文本数据包含的语句对应的预测类别、候选文本数据包含的语句对应的第二特征向量,以及所述候选文本数据包含的语句对应的预测类别,包括:基于预设相似度确定算法,获取所述目标文本数据与预设数据库中的文本数据之间的相似度,并基于所述相似度,获取所述预设数据库中的文本数据中与所述目标文本数据对应的所述候选文本数据;通过所述训练后的目标模型分别对所述目标文本数据包含的语句和所述候选文本数据包含的语句进行特征提取处理,得到所述目标文本数据包含的语句对应的第一特征向量,以及所述候选文本数据包含的语句对应的第二特征向量;通过所述训练后的目标模型分别对所述第一特征向量和所述第二特征向量进行分类处理,得到所述第一特征向量对应的预测类别以及所述第二特征向量对应的预测类别。3.根据权利要求1所述的方法,所述训练后的目标模型包括第一特征提取模块和第二特征提取模块,所述第一特征提取模块和第二特征提取模块的模型结构和模型参数相同;在所述获取基于训练后的目标模型得到的所述目标文本数据包含的语句对应的第一特征向量、所述目标文本数据包含的语句对应的预测类别、候选文本数据包含的语句对应的第二特征向量,以及所述候选文本数据包含的语句对应的预测类别之前,还包括:通过所述第二特征提取模块,对预设数据库中的文本数据包含的语句进行特征提取处理,得到所述预设数据库中的文本数据包含的语句对应的特征向量;通过所述训练后的目标模型对所述文本数据包含的语句对应的特征向量进行分类处理,得到所述文本数据包含的语句对应的特征向量对应的预测类别,并在所述预设数据库中存储所述文本数据包含的语句对应的特征向量,以及所述文本数据包含的语句对应的特
征向量对应的预测类别;所述获取基于训练后的目标模型得到的所述目标文本数据包含的语句对应的第一特征向量、候选文本数据包含的语句对应的第二特征向量,以及所述候选文本数据包含的语句对应的预测类别,包括:通过所述第一特征提取模块,对所述目标文本数据包含的语句进行特征提取处理,得到所述目标文本数据包含的语句对应的第一特征向量;通过所述训练后的目标模型对所述第一特征向量进行分类处理,得到所述第一特征向量对应的预测类别;基于预设相似文本筛选算法,获取所述预设数据库中的文本数据与所述目标文本数据对应的所述候选文本数据,并获取所述预设数据库中存储的所述候选文本数据包含的语句对应的第二特征向量,以及所述候选文本数据包含的语句对应的预测类别。4.根据权利要求2或3任一项所述的方法,所述基于所述目标文本数据包含的语句对应的第一特征向量、所述目标文本数据包含的语句对应的预测类别、所述候选文本数据包含的语句对应的第二特征向量,以及所述候选文本数据包含的语句对应的预测类别,确定所述目标文本数据和所述候选文本数据之间的目标相似度,包括:基于所述目标文本数据包含的语句对应的第一特征向量,以及所述候选文本数据包含的语句对应的第二特征向量,确定所述目标文本数据和所述候选文本数据之间的第一相似度;基于所述目标文本数据包含的语句对应的预测类别,以及所述候选文本数据包含的语句对应的预测类别,确定所述目标文本数据和所述候选文本数据之间的第二相似度;基于所述第一相似度和所述第二相似度,确定所述目标相似度。5.一种数据处理方法,包括:获取用于训练目标模型的第一文本数据样本、第二文本数据样本、所述第一文本数据样本包含的语句对应的类别标签,以及所述第二文本数据样本包含的语句对应的类别标签;基于所述目标模型,确定所述第一文本数据样本包含的语句对应的第三特征向量、所述第二文本数据样本包含的语句对应的第四特征向量、所述第三特征向量对应的预测类别,以及所述第四特征向量对应的预测类别;基于所述第一文本数据样本包含的语句对应的类别标签、所述第二文本数据样本包含的语句对应的类别标签、所述第三特征向量对应的预测类别以及所述第四特征向量对应的预测类别,确定第一损失值,所述第一损失值用于表征所述目标模型在语句级别的分类准确性;获取所述第四特征向量中与所述第三特征向量对应的正样本,以及与所述第三特征向量对应的负样本,并基于所述第三特征向量、与所述第三特征向量对应的正样本,以及与所述第三特征向量对应的负样本,确定第二损失值,所述第二损失值用于表征所述目标模型在语句级别的特征提取准确性;基于所述第一损失值和所述第二损失值,确定所述目标模型对应的目标损失值,并基于所述目标损失值对所述目标模型进行迭代训练,直至所述目标模型收敛,得到训练后的目标模型。
6.根据权利要求5所述的方法,所述目标模型包括第一特征提取模块和第二特征提取模块,所述第一特征提取模块和第二特征提取模块的模型结构和模型参数相同,所述第一特征提取模块用于对所述第一文本数据样本包含的语句进行特征提取处理,所述第二特征提取模块用于对所述第二文本数据样本包含的语句进行特征提取处理。7.根据权利要求6所述的方法,所述第一特征提取模块包括多层特征提取层,所述第三特征向量包括基于第一预设特征提取层对所述第一文本数据样本包含的语句进行特征提取处理得到的第一子向量,所述第二特征提取模块包括多层特征提取层,所述第四特征向量包括基于第二预设特征提取层对所述第二文本数据样本包含的语句进行特征提取处理得到的第二子向量;所述基于所述目标模型,确定所述第三特征向量对应的预测类别,以及所述第四特征向量对应的预测类别,包括:通过所述目标模型对所述第一子向量进行分类处理,得到所述第三特征向量对应的预测类别;通过所述目标模型对所述第二子向量进行分类处理,得到所述第四特征向量对应的预测类别。8.根据权利要求7所述的方法,所述第三特征向量还包括基于第三预设特征提取层对所述第一文本数据样本包含的语句进行特征提取处理得到的第三子向量,所述第一预设特征提取层的层数小于所述第三预设特征提取层,所述第四特征向量还包括基于第四预设特征提取层对所述第二文本数据样本包含的语句进行特征提取处理得到的第四子向量,所述第二预设特征提取层的层数小于所述第四预设特征提取层;所述获取所述第四特征向量中与所述第三特征向量对应的正样本,以及与所述第三特征向量对应的负样本,并基于所述第三特征向量、与所述第三特征向量对应的正样本,以及与所述第三特征向量对应的负样本,确定第二损失值,包括:获取所述第四子向量中与所述第三子向量对应的正样本,以及与所述第三子向量对应的负样本,并基于所述第三子向量、与所述第三子向量对应的正样本,以及与所述第三子向量对应的负样本,确定所述第二损失值。9.根据权利要求8所述的方法,所述基于所述第一文本数据样本包含的语句对应的类别标签、所述第二文本数据样本包含的语句对应的类别标签、所述第三特征向量对应的预测类别以及所述第四特征向量对应的预测类别,确定第一损失值,包括:基于所述第一文本数据样本包含的语句对应的类别标签的数量、所述第一文本数据样本包含的语句的数量、所述第一文本数据样本包含的语句对应的类别标签,以及所述第三特征向量对应的预测类别,确定第一子损失值;基于所述第二文本数据样本包含的语句对应的类别标签的数量、所述第二文本数据样本包含的语句的数量、所述第二文本数据样本包含的语句对应的类别标签,以及所述第四特征向量对应的预测类别,确定第二子损失值;基于所述第一子损失值和所述第二子损失值,确定所述第一损失值。10.根...
【专利技术属性】
技术研发人员:魏扬威,都金涛,祝慧佳,郭士串,吕东东,张博,廖佳玲,杨淑娟,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。