单据数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:23162335 阅读:39 留言:0更新日期:2020-01-21 22:06
本申请涉及智能决策技术,提供了一种单据数据处理方法、装置、计算机设备和存储介质。方法包括:获取目标单据;从目标单据中提取目标特征对应的特征数据;目标特征是在模型训练阶段基于训练样本集预配置的;将特征数据输入已训练的单据评分模型进行预测得到目标单据评分;查询评分阈值;评分阈值是在模型训练阶段基于训练样本集中单据的单据评分分析得到的;当目标单据评分小于评分阈值时,将目标单据推送至终端进行审核;当接收到终端针对目标单据反馈的音频审核数据时,基于从音频审核数据中提取出的声纹特征进行身份验证,在验证通过时根据从音频审核数据中识别出的文本数据确定目标单据的单据评分。采用本方法能够提高单据评分的准确性。

Document data processing method, device, computer equipment and storage medium

【技术实现步骤摘要】
单据数据处理方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种单据数据处理方法、装置、计算机设备和存储介质。
技术介绍
单据也即用户单据,是包括用户信息和产品推荐信息的凭证,单据中的产品推荐信息通常是由单据管理员基于自身经验根据用户信息确定的。产品推荐信息的确定受限于单据管理员的自身经验和资质,由此导致部分产品推荐信息不适用与相应用户,也就是基于用户信息所确定的产品推荐信息的准确率较低。如何借助于经验丰富和资质较深的单据管理员所确定的产品推荐信息来提高产品推荐信息和用户的匹配度是值得关注的问题。目前,通常是根据目标单据中的用户信息查询相匹配的历史单据,并根据所查询到的历史单据数量确定单据评分,并将单据评分较高的单据作为待推荐的单据并推荐给单据管理员参考。但是,基于用户信息在海量的历史单据中查询相匹配的历史单据需要耗费大量的查询等待时间,存在查询效率低的问题,从而降低了单据数据的处理效率。而且,基于所查询到的历史单据数量对目标单据进行评分,存在单据数据的处理准确性低的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高单据数据的处理效率和准确性的单据数据处理方法、装置、计算机设备和存储介质。一种单据数据处理方法,所述方法包括:获取待评分的目标单据;从所述目标单据中提取预配置的目标特征所对应的特征数据;所述目标特征是在模型训练阶段基于训练样本集预配置的;将所述特征数据输入已训练的单据评分模型进行预测得到目标单据评分;r>查询预配置的评分阈值;所述评分阈值是在所述模型训练阶段基于所述训练样本集中每个单据的单据评分分析得到的;当所述目标单据评分小于所述评分阈值时,将所述目标单据推送至终端进行审核;当接收到所述终端针对所述目标单据反馈的音频审核数据时,基于从所述音频审核数据中提取出的声纹特征进行身份验证,并在验证通过时根据从所述音频审核数据中识别出的文本数据确定所述目标单据的单据评分。在其中一个实施例中,在模型训练阶段基于训练样本集预配置所述目标特征的步骤包括:获取训练样本集;所述训练样本集包括单据和所述单据对应的单据标签;从所述单据中提取离散特征对应的离散特征数据,根据所述离散特征数据和所述单据标签进行卡方检验,得到所述离散特征与所述单据标签的第一相关性,根据所述第一相关性从所述离散特征中筛选第一相关特征;从所述单据中提取连续特征对应的连续特征数据,调用预配置的相关性检验函数,根据所述连续特征数据和所述单据标签计算所述连续特征和所述单据标签的第二相关性,根据所述第二相关性从所述连续特征中筛选第二相关特征;将所述第一相关特征与所述第二相关特征预配置为目标特征。在其中一个实施例中,所述将所述第一相关特征与所述第二相关特征预配置为目标特征,包括:调用所述相关性检验函数,根据所述离散特征数据和所述连续特征数据,计算所述第一相关特征和所述第二相关特征的第三相关性;当所述第三相关性大于或等于相关性阈值时,将所述第一相关特征或所述第二相关特征预配置为目标特征。在其中一个实施例中,所述根据所述离散特征数据和所述单据标签进行卡方检验,得到所述离散特征与所述单据标签的第一相关性,包括:建立所述离散特征与所述单据标签之间的假设关系;对所述离散特征数据进行统计分析得到统计数据分布,根据所述统计数据分布计算卡方值;确定所述离散特征对应的自由度,根据所述自由度查询预配置的卡方分布表得到卡方参考值;根据所述卡方值和所述卡方参考值对所述假设关系进行验证,以确定所述离散特征与所述单据标签的第一相关性。在其中一个实施例中,所述获取训练样本集,包括:获取初始训练样本集;对所述初始样本训练集中的初始单据进行预处理得到预处理后的单据;按照预设打标签方式对所述单据打标签得到单据标签;根据所述单据和所述单据对应的单据标签得到训练样本集。在其中一个实施例中,所述单据评分模型的训练步骤包括:基于所述训练样本集预配置出目标特征后,对所述目标特征进行特征分箱,得到多个特征区间,并计算每个特征区间的WOE值;将所述单据中所述目标特征对应的特征数据作为输入特征,将相应的单据标签作为期望的输出特征进行模型训练,得到已训练的逻辑回归模型,根据所述逻辑回归模型确定所述目标特征的特征系数;根据所述特征系数和预配置的特征常量确定评分映射关系;根据所述目标特征对应的每个特征区间的WOE值和所述评分映射关系得到已训练的单据评分模型。在其中一个实施例中,所述将所述特征数据输入已训练的单据评分模型进行预测得到目标单据评分,包括:根据所述特征数据和针对所述目标特征预配置的特征区间,确定所述特征数据所属的目标特征区间;将所述目标特征区间对应的WOE值确定为所述特征数据对应的WOE值;根据所述特征数据对应的WOE值,按照预配置的评分映射关系计算目标单据评分。一种单据数据处理装置,所述装置包括:获取模块,用于获取待评分的目标单据;提取模块,用于从所述目标单据中提取预配置的目标特征所对应的特征数据;所述目标特征是在模型训练阶段基于训练样本集预配置的;预测模块,用于将所述特征数据输入已训练的单据评分模型进行预测得到目标单据评分;查询模块,用于查询预配置的评分阈值;所述评分阈值是在所述模型训练阶段基于所述训练样本集中每个单据的单据评分分析得到的;推送模块,用于当所述目标单据评分小于所述评分阈值时,将所述目标单据推送至终端进行审核;验证模块,用于当接收到所述终端针对所述目标单据反馈的音频审核数据时,基于从所述音频审核数据中提取出的声纹特征进行身份验证,并在验证通过时根据从所述音频审核数据中识别出的文本数据确定所述目标单据的单据评分。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述各个实施例中所述的单据数据处理方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个实施例中所述的单据数据处理方法的步骤。上述单据数据处理方法、装置、计算机设备和存储介质,根据模型训练阶段基于训练样本集预配置的目标特征,从待评分的目标单据中提取用于评分的特征数据,能够提高特征数据提取的效率和准确性,从而能够提高单据数据的处理效率和准确性。通过已训练的单据评分模型根据准确性较高的特征数据预测得到目标单据评分,能够进一步提高单据数据的处理效率和准确性。基于准确性较高的目标单据评分和模型训练阶段预配置的评分阈值,将目标单据评分小于评分阈值的目标单据推送至终端进行审核,并在接收到终端对应反馈的音频审核数据时,根据从音频审核数据中提取的声纹特征对审核人员进行验证,当验证通过时,基于音频审核数据对应的文本数据确定单据评分,以进一步提高单据数据的处理准确性。附图说本文档来自技高网...

【技术保护点】
1.一种单据数据处理方法,所述方法包括:/n获取待评分的目标单据;/n从所述目标单据中提取预配置的目标特征所对应的特征数据;所述目标特征是在模型训练阶段基于训练样本集预配置的;/n将所述特征数据输入已训练的单据评分模型进行预测得到目标单据评分;/n查询预配置的评分阈值;所述评分阈值是在所述模型训练阶段基于所述训练样本集中每个单据的单据评分分析得到的;/n当所述目标单据评分小于所述评分阈值时,将所述目标单据推送至终端进行审核;/n当接收到所述终端针对所述目标单据反馈的音频审核数据时,基于从所述音频审核数据中提取出的声纹特征进行身份验证,并在验证通过时根据从所述音频审核数据中识别出的文本数据确定所述目标单据的单据评分。/n

【技术特征摘要】
1.一种单据数据处理方法,所述方法包括:
获取待评分的目标单据;
从所述目标单据中提取预配置的目标特征所对应的特征数据;所述目标特征是在模型训练阶段基于训练样本集预配置的;
将所述特征数据输入已训练的单据评分模型进行预测得到目标单据评分;
查询预配置的评分阈值;所述评分阈值是在所述模型训练阶段基于所述训练样本集中每个单据的单据评分分析得到的;
当所述目标单据评分小于所述评分阈值时,将所述目标单据推送至终端进行审核;
当接收到所述终端针对所述目标单据反馈的音频审核数据时,基于从所述音频审核数据中提取出的声纹特征进行身份验证,并在验证通过时根据从所述音频审核数据中识别出的文本数据确定所述目标单据的单据评分。


2.根据权利要求1所述的方法,其特征在于,在模型训练阶段基于训练样本集预配置所述目标特征的步骤包括:
获取训练样本集;所述训练样本集包括单据和所述单据对应的单据标签;
从所述单据中提取离散特征对应的离散特征数据,根据所述离散特征数据和所述单据标签进行卡方检验,得到所述离散特征与所述单据标签的第一相关性,根据所述第一相关性从所述离散特征中筛选第一相关特征;
从所述单据中提取连续特征对应的连续特征数据,调用预配置的相关性检验函数,根据所述连续特征数据和所述单据标签计算所述连续特征和所述单据标签的第二相关性,根据所述第二相关性从所述连续特征中筛选第二相关特征;
将所述第一相关特征与所述第二相关特征预配置为目标特征。


3.根据权利要求2所述的方法,其特征在于,所述将所述第一相关特征与所述第二相关特征预配置为目标特征,包括:
调用所述相关性检验函数,根据所述离散特征数据和所述连续特征数据,计算所述第一相关特征和所述第二相关特征的第三相关性;
当所述第三相关性大于或等于相关性阈值时,将所述第一相关特征或所述第二相关特征预配置为目标特征。


4.根据权利要求2所述的方法,其特征在于,所述根据所述离散特征数据和所述单据标签进行卡方检验,得到所述离散特征与所述单据标签的第一相关性,包括:
建立所述离散特征与所述单据标签之间的假设关系;
对所述离散特征数据进行统计分析得到统计数据分布,根据所述统计数据分布计算卡方值;
确定所述离散特征对应的自由度,根据所述自由度查询预配置的卡方分布表得到卡方参考值;
根据所述卡方值和所述卡方参考值对所述假设关系进行验证,以确定所述离散特征与所述单据标签的第一相关性。


5.根据权利要求2所述的方法,其特征在于,所述获取训练样本集,包括:
获...

【专利技术属性】
技术研发人员:王可鹏
申请(专利权)人:平安医疗健康管理股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1