模型训练方法、文本匹配方法、装置及电子设备制造方法及图纸

技术编号:33921806 阅读:49 留言:0更新日期:2022-06-25 21:08
本申请公开了一种模型训练方法、文本匹配方法、装置及电子设备。其中,模型训练方法包括:获取至少一组第一数据;所述第一数据包括第一文本以及与第一文本匹配的第二文本;为所述至少一组第一数据中的每组第一数据生成关联的第二数据;其中,第二数据包括至少一个第三文本;第三文本表征与关联的第一数据中的第一文本不匹配的文本;基于每组第一数据及对应的第二数据进行模型训练,在满足设定条件的情况下,输出第一模型。输出第一模型。输出第一模型。

【技术实现步骤摘要】
模型训练方法、文本匹配方法、装置及电子设备


[0001]本申请涉及数据处理
,尤其涉及一种模型方法、文本匹配方法、装置、电子设备及存储介质。

技术介绍

[0002]相关技术中,采用基于词典的方法、基于机器学习的方法或基于深度学习的方法确定两个文本之间的相似度,然而,以上方法的实现需要多种资源的支持,导致用于提取文本特征的模型的适用范围缩小。

技术实现思路

[0003]有鉴于此,本申请实施例提供一种模型训练方法、文本匹配方法、装置、电子设备及存储介质,以至少解决相关技术出现的在确定两个文本之间的相似度时,用于提取文本特征的模型的运行需要多种资源支持的问题。
[0004]本申请实施例的技术方案是这样实现的:
[0005]本申请实施例提供了一种模型训练方法,所述方法包括:
[0006]获取至少一组第一数据;所述第一数据包括第一文本以及与第一文本匹配的第二文本;
[0007]为所述至少一组第一数据中的每组第一数据生成关联的第二数据;其中,第二数据包括至少一个第三文本;第三文本表征与关联的第一数据中的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取至少一组第一数据;所述第一数据包括第一文本以及与第一文本匹配的第二文本;为所述至少一组第一数据中的每组第一数据生成关联的第二数据;其中,第二数据包括至少一个第三文本;第三文本表征与关联的第一数据中的第一文本不匹配的文本;基于每组第一数据及对应的第二数据进行模型训练,在满足设定条件的情况下,输出第一模型;其中,所述设定条件表征第一数据对应的第一距离均满足第一阈值范围,且第一数据关联的第二数据对应的第二距离均满足第二阈值范围;所述第一距离表征第一数据中的第一文本与第二文本之间特征向量的距离;所述第二距离表征第一数据中的第一文本与关联的第二数据中的第三文本之间特征向量的距离;所述第一模型用于输出文本对应的特征向量。2.根据权利要求1所述的模型训练方法,其特征在于,所述获取至少一组第一数据,包括:从设定词库中提取所述至少一组第一数据;其中,所述设定词库中存储有第一词语及第一词语对应的至少一个第二词语;第一词语与对应的第二词语语义相同。3.根据权利要求2所述的模型训练方法,其特征在于,所述设定词库基于以下数据源的至少之一创建:用户的日志信息、业务场景相关的文本信息及通用字库。4.根据权利要求3所述的模型训练方法,其特征在于,所述方法还包括:从用户的日志信息中提取搜索关键词及对应的搜索结果;基于提取到的搜索关键词及对应的搜索结果,创建所述设定词库。5.根据权利要求3或4所述的模型训练方法,其特征在于,所述方法还包括:将所述第一模型下发至移动终端;所述移动终端表征上传日志信息的移动终端。6.根据权利要求1所述的模型训练方法,其特征在于,在所述获取至少一组第一数据之后,所述方法还包括:对所述至少一组第一数据中的每组第一数据进行数据清洗。7.一种文本匹配方法,其特征在于,包括:将第五文本与第六文本输入至第一模型,分别得到所述第五文本的第一特征向量与所述第六文本的第二特征向量;根据所述第一特征向量...

【专利技术属性】
技术研发人员:曹俊年
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1