数据处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号:37085590 阅读:12 留言:0更新日期:2023-03-29 20:00
本发明专利技术公开了一种数据处理方法、装置、设备及可读存储介质,该方法可以应用于人工智能、医疗等各种场景,包括:根据业务类别粗预测信息对初始业务查询样本集合中的M个待处理业务查询样本分别配置标注业务正样本集合和标注业务负样本集合;根据M个待处理业务查询样本、M个标注业务正样本集合以及M个标注业务负样本集合,得到N个查询样本三元组,以及N个查询样本三元组分别对应的正权重参数集合和负权重参数集合;根据N个查询样本三元组、每个正权重参数集合中的N个正权重参数以及每个负权重参数集合中的N个负权重参数对初始业务引导模型进行训练,得到目标业务引导模型。采用本申请,可以提高业务类别预测的准确率。可以提高业务类别预测的准确率。可以提高业务类别预测的准确率。

【技术实现步骤摘要】
数据处理方法、装置、设备及可读存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、设备及可读存储介质。

技术介绍

[0002]随着机器学习技术的进步和大众医疗需求的日益增长,智能业务引导系统逐渐成为各大企业的关注,它的作用是根据用户描述的业务需求为用户推荐相应的业务类别,从而为用户提供更及时、高效、精准的服务,为企业人员减轻工作负担,提高企业的整体运行效率。
[0003]智能业务引导系统的实现通常依赖于分类模型,但是训练分类模型需要的数据量较大,因此智能业务引导系统可以引导的业务类别往往局限于大部分企业的业务类别中存在的大量共性的标准业务类别,例如,医疗场景下,医院使用的智能业务引导系统(例如,智能分诊系统)推荐的就诊科室往往局限于标准科室,如“内科”、“外科”、“骨科”、“儿科”、“呼吸内科”、“消化内科”等大部分医院都设有的常规科室。但是除了常见的标准业务类别,不同业务场景下的不同企业存在大量的特色业务类别,这一类业务类别通常专注某一特地类型的业务,不同企业之间特色业务类别之间的差异度大,导致特色业务类别的种类多,而在能获取到的查询数据中,与特色业务类别相关的查询数据所占比例低,因此需要人工对海量的查询数据进行标注来获取训练数据,人工获取训练数据的效率低下,因此耗费大量时间与成本也很难获取到需要的训练数据量,最终训练得到的模型很难满足实际上线所需的准确率。

技术实现思路

[0004]本申请实施例提供了一种数据处理方法、装置、设备及可读存储介质,可以提高业务类别预测的准确率。
[0005]本申请实施例一方面提供了一种数据处理方法,包括:
[0006]获取初始业务查询样本集合对应的业务类别粗预测信息,根据业务类别粗预测信息对初始业务查询样本集合中的M个待处理业务查询样本分别配置标注业务正样本集合和标注业务负样本集合;M为正整数;
[0007]对M个待处理业务查询样本、M个标注业务正样本集合以及M个标注业务负样本集合进行组合配对处理,得到N个查询样本三元组,根据N个查询样本三元组、M个标注业务正样本集合以及M个标注业务负样本集合,确定N个查询样本三元组分别对应的正权重参数集合和负权重参数集合;每个查询样本三元组均包括属于M个待处理业务查询样本的业务查询样本、属于M个标注业务正样本集合的标注业务正样本以及属于M个标注业务负样本集合的标注业务负样本;N为大于或等于M的正整数;
[0008]根据N个查询样本三元组、每个正权重参数集合中的N个正权重参数以及每个负权重参数集合中的N个负权重参数对初始业务引导模型进行训练,得到目标业务引导模型;目
标业务引导模型用于预测业务查询信息对应的业务类别标签;每个正权重参数均用于控制一个业务查询样本与一个标注业务正样本之间的相似度对初始业务引导模型的训练影响;每个负权重参数均用于控制一个业务查询样本与一个标注业务负样本之间的相似度对初始业务引导模型的训练影响。
[0009]本申请实施例一方面提供了一种数据处理装置,包括:
[0010]第一获取模块,用于获取初始业务查询样本集合对应的业务类别粗预测信息;
[0011]标注筛选模块,用于根据业务类别粗预测信息对初始业务查询样本集合中的M个待处理业务查询样本分别配置标注业务正样本集合和标注业务负样本集合;M为正整数;
[0012]样本处理模块,用于对M个待处理业务查询样本、M个标注业务正样本集合以及M个标注业务负样本集合进行组合配对处理,得到N个查询样本三元组,根据N个查询样本三元组、M个标注业务正样本集合以及M个标注业务负样本集合,确定N个查询样本三元组分别对应的正权重参数集合和负权重参数集合;每个查询样本三元组均包括属于M个待处理业务查询样本的业务查询样本、属于M个标注业务正样本集合的标注业务正样本以及属于M个标注业务负样本集合的标注业务负样本;N为大于或等于M的正整数;
[0013]第一训练模块,用于根据N个查询样本三元组、每个正权重参数集合中的N个正权重参数以及每个负权重参数集合中的N个负权重参数对初始业务引导模型进行训练,得到目标业务引导模型;目标业务引导模型用于预测业务查询信息对应的业务类别标签;每个正权重参数均用于控制一个业务查询样本与一个标注业务正样本之间的相似度对初始业务引导模型的训练影响;每个负权重参数均用于控制一个业务查询样本与一个标注业务负样本之间的相似度对初始业务引导模型的训练影响。
[0014]本申请实施例一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
[0015]上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信网元,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以执行本申请实施例中的方法。
[0016]本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序适于由处理器加载并执行本申请实施例中的方法。
[0017]本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中的方法。
[0018]本申请实施例中,可以先获取初始业务查询样本对应的业务类别粗预测信息,根据业务类别粗预测信息对初始业务查询样本集合进行标注筛选处理,得到属于初始业务查询样本集合的M个待处理业务查询样本,每个待处理查询样本分别对应有标注业务正样本集合和标注业务负样本集合,然后对M个待处理业务查询样本、M个标注业务正样本集合以及M个标注业务负样本集合进行组合处理,得到N个查询样本三元组,然后再根据N个查询样本三元组、M个标注业务正样本集合以及M个标注业务负样本集合,确定N个查询样本三元组分别对应的正权重参数集合和负权重参数集合;其中,M为正整数,N为大于M的正整数,每个查询样本三元组均包括属于M个待处理业务查询样本的业务查询样本、属于M个标注业务正样本集合的标注业务正样本以及属于M个标注业务负样本集合的标注业务负样本;最后,根
据N个查询样本三元组、每个正权重参数集合中的N个正权重参数以及每个负权重参数集合中的N个负权重参数对初始业务引导模型进行训练,得到目标业务引导模型,该目标业务引导模型可以用于预测业务查询信息对应的业务类别标签。采用本申请实施例提出的方法,通过业务类别粗预测信息可以快速为初始业务查询样本集合中的M个待处理业务查询样本分别配置标注业务正样本集合和标注业务负样本集合,提升训练数据获取效率,且大大降低训练数据的获取成本与时间,此外,基于M个待处理业务查询样本分别配置的标注业务正样本集合和标注业务负样本集合,可以构建用于训练初始业务引导模型的N个查询样本三元组,并在基于N个查询样本三元组训练初始业务引导模型时引入正权重参数和负权重参数,不仅扩充了训练数据,而且降低了不同查询样本三元组中的相似样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取初始业务查询样本集合对应的业务类别粗预测信息,根据所述业务类别粗预测信息对所述初始业务查询样本集合中的M个待处理业务查询样本分别配置标注业务正样本集合和标注业务负样本集合;M为正整数;对所述M个待处理业务查询样本、M个标注业务正样本集合以及M个标注业务负样本集合进行组合配对处理,得到N个查询样本三元组,根据所述N个查询样本三元组、所述M个标注业务正样本集合以及所述M个标注业务负样本集合,确定所述N个查询样本三元组分别对应的正权重参数集合和负权重参数集合;每个查询样本三元组均包括属于所述M个待处理业务查询样本的业务查询样本、属于所述M个标注业务正样本集合的标注业务正样本以及属于所述M个标注业务负样本集合的标注业务负样本;N为大于或等于M的正整数;根据所述N个查询样本三元组、每个正权重参数集合中的N个正权重参数以及每个负权重参数集合中的N个负权重参数对初始业务引导模型进行训练,得到目标业务引导模型;所述目标业务引导模型用于预测业务查询信息对应的业务类别标签;每个正权重参数均用于控制一个业务查询样本与一个标注业务正样本之间的相似度对所述初始业务引导模型的训练影响;每个负权重参数均用于控制一个业务查询样本与一个标注业务负样本之间的相似度对所述初始业务引导模型的训练影响。2.根据权利要求1所述的方法,其特征在于,所述初始业务查询样本集合包括L个无标注业务查询样本;L为大于或等于M的正整数;所述业务类别粗预测信息包括所述L个无标注业务查询样本分别对应的样本业务类别粗预测信息;所述根据所述业务类别粗预测信息对所述初始业务查询样本集合中的M个待处理业务查询样本分别配置标注业务正样本集合和标注业务负样本集合,包括:遍历所述L个无标注业务查询样本分别对应的样本业务类别粗预测信息,顺序获取第i个无标注业务查询样本对应的样本业务类别粗预测信息,作为第i个样本业务类别粗预测信息;i为小于或等于L的正整数;若所述第i个样本业务类别粗预测信息包含大于或等于业务类别概率阈值的样本业务类别概率,则将所述第i个无标注业务查询样本添加至第一预测结果样本集合;若所述第i个样本业务类别粗预测信息没有包含大于或等于业务类别概率阈值的样本业务类别概率,则将所述第i个无标注业务查询样本添加至第二预测结果样本集合;当已遍历完L个样本业务类别粗预测信息时,从所述第一预测结果样本集合中,获取M个无标注业务查询样本作为待处理业务查询样本,从所述第二预测结果样本集合中,获取A个无标注业务查询样本作为A个困难负样本,将所述A个困难负样本添加至困难负样本集合;A为正整数,且A与M之间的比例关系满足预设比例条件;根据所述困难负样本集合以及M个待处理业务查询样本分别对应的样本业务类别粗预测信息,为所述M个待处理业务查询样本分别配置标注业务正样本集合和标注业务负样本集合。3.根据权利要求2所述的方法,其特征在于,所述M个待处理业务查询样本包括待处理业务查询样本M
j
,j为小于或等于M的正整数;所述待处理业务查询样本M
j
对应的样本业务类别粗预测信息包括B个样本业务类别粗预测信息对;一个样本业务类别粗预测信息对包括一个样本业务类别和一个样本业务类别概率;B为正整数;
所述根据所述困难负样本集合以及M个待处理业务查询样本分别对应的样本业务类别粗预测信息,为所述M个待处理业务查询样本分别配置标注业务正样本集合和标注业务负样本集合,包括:创建所述待处理业务查询样本M
j
对应的初始正样本集合和初始负样本集合;所述初始正样本集合和初始负样本集合为空集合;遍历所述待处理业务查询样本M
j
对应的所述B个样本业务类别粗预测信息对,顺序获取第k个样本业务类别和第k个样本业务类别概率;k为小于或等于B的正整数;若第k个样本业务类别概率大于或等于所述业务类别概率阈值,则根据正负样本匹配规则对第k个样本业务类别进行样本匹配,得到样本匹配结果;若所述第k个样本业务类别的样本匹配结果为正样本结果,则将所述第k个样本业务类别作为所述待处理业务查询样本M
j
对应的标注业务正样本,将所述待处理业务查询样本M
j
对应的标注业务正样本添加至所述初始正样本集合;若所述第k个样本业务类别的样本匹配结果为负样本结果,则将所述第k个样本业务类别作为所述待处理业务查询样本M
j
对应的标注业务负样本,将所述待处理业务查询样本M
j
对应的标注业务负样本添加至所述初始负样本集合;若已遍历完所述B个样本业务类别粗预测信息对,且所述初始负样本集合为空集合,则从所述困难负样本集合中,获取困难负样本作为所述待处理业务查询样本M
j
对应的标注业务负样本,将所述待处理业务查询样本M
j
对应的标注业务负样本添加至初始负样本集合;将已添加完所述待处理业务查询样本M
j
对应的标注业务正样本的初始正样本集合确定为所述待处理业务查询样本M
j
对应的标注业务正样本集合,将已添加完所述待处理业务查询样本M
j
对应的标注业务负样本的初始负样本集合确定为所述待处理业务查询样本M
j
对应的标注业务负样本集合。4.根据权利要求1所述的方法,其特征在于,所述对所述M个待处理业务查询样本、M个标注业务正样本集合以及M个标注业务负样本集合进行组合配对处理,得到N个查询样本三元组,根据所述N个查询样本三元组、所述M个标注业务正样本集合以及所述M个标注业务负样本集合,确定所述N个查询样本三元组分别对应的正权重参数集合和负权重参数集合,包括:对所述M个待处理业务查询样本、M个标注业务正样本集合以及M个标注业务负样本集合进行组合配对处理,得到N个查询样本三元组;遍历所述N个查询样本三元组,顺序获取第h个查询样本三元组中的业务查询样本,作为目标业务查询样本;h为小于或等于N的正整数;将所述目标业务查询样本对应的标注业务正样本集合,作为目标标注业务正样本集合,将所述目标业务查询样本对应的标注业务负样本集合,作为目标标注业务负样本集合;根据所述目标标注业务正样本集合与所述N个查询样本三元组分别包括的标注业务正样本之间的相似关系,生成所述目标业务查询样本对应的正权重参数集合;根据所述目标标注业务负样本集合与所述N个查询样本三元组分别包括的标注业务负样本之间的相似关系,生成所述目标业务查询样本对应的负权重参数集合。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标标注业务正样本集合与所述N个查询样本三元组分别包括的标注业务正样本之间的相似关系,生成所述目标业务
查询样本对应的正权重参数集合,包括:创建初始正权重参数集合;所述初始正权重参数集合为空集合;将所述目标标注业务正样本集合包含的标注业务正样本的数量,作为第一正样本数量;遍历所述N个查询样本三元组分别包括的标注业务正样本,顺序获取第g个标注业务正样本;g为小于或等于N的正整数;将所述目标标注业务正样本集合中,与所述第g个标注业务正样本不相同的标注业务正样本的数量,作为第二正样本数量;根据所述第一正样本数量以及第二正样本数量,确定所述目标业务查询样本与所述第g个标注业务正样本之间用于表征相似关系的权重参数;将所述目标业务查询样本与所述第g个标注业务正样本之间的权重参数添加至所述初始正权重参数集合;当已遍历完N个标注业务正样本时,将包含所述目标业务查询样本分别与所述N个标注业务正样本之间的权重参数的初始正权重参数集合,作为所述目标业务查询样本对应的正权重参数集合。6.根据权利要求1所述的方法,其特征在于,所述根据所述N个查询样本三元组、每个正权重参数集合中的N个正权重参数以及每个负权重参数集合中的N个负权重参数对初始业务引导模型进行训练,得到目标业务引导模型,包括:通过初始业务引导模型,对所述N个查询样本三元组进行特征编码处理,得到所述N个查询样本三元组分别对应的查询样本向量三元组;一个查询样本向量三元组包括业务查询样本向量、标注业务正样本向量以及标注业务负样本向量;遍历所述N个查询样本三元组,顺序获取第f个查询样本三元组,将所述第f个查询样本三元组中的业务查询样本,作为第f个业务查询样本,将所述第f个查询样本三元组中的标注业务正样本,作为第f个标注业务正样本;根据N个查询样本向量三元组、所述第f个查询样本三元组对应的正权重参数集合和负权重参数集合,确定第f个业务查询样本对应的损失函数值;当已遍历完所述N个查询样本三元组时,根据N个业务查询样本分别对应的损失函数值,对所述初始业务引导模型进行模型参数调整;若调整后的初始业务引导模型满足模型收敛条件,则将调整后的初始业务引导模型作为目标业务引导模型。7.根据权利要求6所述的方法,其特征在于,所述根据N个查询样本向量三元组、所述第f个查询样本三元组对应的正权重参数集合和负权重参数集合,确定第f个业务查询样本对应的损失函数值,包括:从N个查询样本向量三元组中获取第f个查询样本三元组对应的查询样本向量三元组,作为目标查询样本向量三元组;根据所述目标查询样本向量三元组包括的业务查询样本向量和标注业务正样本向量,确定第f个业务查询样本与第f个标注业务正样本之间的第一相似度;根据所述目标查询样本向量三元组中的业务查询样本向量、所述N个查询样本三元组中的每个标注业务正样本向量,确定第f个业务查询样本与所述N个查询样本三元组中的每
个标注业务正样本之间的第二相似度;根据所述目标查询样本向量三元组中的业务查询样本向量、所述N个查询样本三元组中的每个标注业务负样本向量,确定第f个业务查询样本与所述N个查询样本三元组中的每个标注业务负样本之间的第三相似度;根据所述第f个查询样本三元组对应的正权重参数集合中的N个正权重参数,对N个第二相似度进行权重调整,得到N个第一权重相似度;根据所述第f个查询样本三元组对应的负权重参数集合中的N个负权重参数,对N个第三相似度进...

【专利技术属性】
技术研发人员:张云燕吴贤赖炜
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1