企业发票数据监测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:20272703 阅读:26 留言:0更新日期:2019-02-02 03:43
本申请涉及一种基于机器学习的企业发票数据监测方法、装置、计算机设备和存储介质。所述方法包括:获取待监测的实时发票数据,将实时发票数据输入预先训练的聚类模型,检测聚类模型的聚类中心的偏移量,当聚类中心的偏移量超过阈值范围时,获取聚类模型中与实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本,根据最近邻算法以及样本所属的识别标签,得到实时发票数据的监测结果。采用本方法能够提高识别发票数据中异常发票的异常类型的准确性。

【技术实现步骤摘要】
企业发票数据监测方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种企业发票数据监测方法、装置、计算机设备和存储介质。
技术介绍
目前,企业需要贷款时,会给放贷方提供各项企业资料和各个平台的资料获取权限,放贷方根据各项资料分析企业的贷款资质,为企业提供贷款。然而贷款是个长期合作的过程,如果企业的经营状况不佳,可能导致企业的偿还能力降低,考虑到风险问题,放贷方会降低企业的贷款额度或者停止给企业放款。发票数据一定程度反映企业的经营状况,通过对企业发票数据进行分析,可以得到企业的经营状况。然而,发票数据中内容繁多,发票数据量大,在人工分析发票数据时,对于异常开票、虚假开票的发票数据的识别精度低,从而无法准确的识别异常开票、虚假开票的发票数据的异常类型。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够解决无法准确识别到发票数据中异常发票的异常类型问题的企业发票数据监测方法、装置、计算机设备和存储介质。一种企业发票数据监测方法,所述方法包括:获取待监测的实时发票数据;将所述实时发票数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量;当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本;根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时发票数据的监测结果。在其中一个实施例中,还包括:获取用于训练聚类模型的历史发票数据;提取历史发票数据中的第一特征参数点,选择多个第一特征参数点作为初始聚类中心;根据所述初始聚类中心以及所述第一特征参数点进行聚类训练,得到聚类模型。在其中一个实施例中,还包括:提取所述实时发票数据中的第二特征参数点,将所述第二特征参数点输入所述聚类模型;根据所述第二特征参数点、所述聚类模型的聚类中心和所述第一特征参数点进行聚类训练,得到偏移聚类模型;获取所述偏移聚类模型的偏移聚类中心,根据所述偏移聚类中心和所述聚类中心位置的偏移距离,得到所述聚类模型的聚类中心的偏移量。在其中一个实施例中,还包括:计算所述聚类模型中第一特征参数点与所述第二特征参数点的距离;获取距离最近的多个历史发票数据作为最近邻算法的样本。在其中一个实施例中,还包括:获取历史发票数据中商品名称字段值以及规格型号字段值均相同的商品历史发票数据;提取商品历史发票数据中的合计金额字段值以及商品单价字段值,根据所述合计金额字段值以及所述商品单价字段值,得到第一特征参数点。在其中一个实施例中,所述识别标签包括:价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签,还包括:统计所述样本的识别标签中价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签的数量,确定价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签中数量最多的样本的识别标签为所述实时发票数据的监测结果。在其中一个实施例中,还包括:当聚类中心的偏移量在阈值范围内时,获取所述实时发票数据在所述偏移聚类模型对应的簇,统计簇内历史发票数据的数目;当所述数目小于其他簇内历史发票数据的数目的均值时,删除历史税务数据数量最多的簇中的一个历史税务数据,根据所述实时发票数据更新所述聚类模型。一种企业发票数据监测装置,所述装置包括:数据采集模块,用于获取待监测的实时发票数据;偏移计算模块,用于将所述实时发票数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量;样本选择模块,用于当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本;监测模块,用于根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时发票数据的监测结果。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待监测的实时发票数据;将所述实时发票数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量;当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本;根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时发票数据的监测结果。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待监测的实时发票数据;将所述实时发票数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量;当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本;根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时发票数据的监测结果。上述企业发票数据监测方法、装置、计算机设备和存储介质,通过获取待监测的实时发票数据,将实时发票数据输入预先训练的聚类模型,检测聚类模型的聚类中心的偏移量,当聚类中心的偏移量超过阈值范围时,获取聚类模型中与实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本,根据最近邻算法以及样本所属的识别标签,得到实时发票数据的监测结果。本专利技术实施例,通过将发票数据输入预先训练的聚类模型,能够精确的识别发票数据中异常开票、虚假开票的情况,然后通过最近邻算法确定异常发票的异常类型,从而在接收到待监测的实时发票数据时,能够提高识别实时发票数据中异常发票的异常类型的准确性。附图说明图1为一个实施例中企业发票数据监测方法的应用场景图;图2为一个实施例中企业发票数据监测方法的流程示意图;图3为一个实施例中训练聚类模型步骤的流程示意图;图4为一个实施例中检测偏移量步骤的流程示意图;图5为另一个实施例中最近邻算法中样本分布的示意图;图6为一个实施例中企业发票数据监测装置的结构框图;图7为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的企业发票数据监测方法,可以应用于如图1所示的应用环境中。其中,发票服务器102通过网络与服务器104通过网络进行通信。其中,发票服务器102和服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。发票服务器102中存储企业的发票数据,或者发票服务器102具有获取企业的发票数据的权限,发票服务器102和服务器104进行通讯时,发票服务器102将企业的发票数据发送给服务器104。服务器104中预先训练了聚类模型,聚类模型是根据发票数据训练得到的,针对不同类型的发票数据,需要训练不同的聚类模型,以此,在接收到发票数据时,才能利用对应的聚类模型进行发票数据的检测。服务器104从发票服务器102获取发票数据后,将发票数据输入聚类模型中,聚类模型进行迭代训练,稳定后,会形成新的聚类中心,从而存在偏移量。服务器104计算该偏移量,并检测该偏移量是否超过阈值范围,超过阈值范围时,然后从而聚类模型中选择最近邻算法的样本,通过样本的识别标签确定发票数据的监测结果。在一个实施例中,如图2所示,提供了一种企业发票数据监测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:步骤202,获取待监测的实本文档来自技高网...

【技术保护点】
1.一种企业发票数据监测方法,所述方法包括:获取待监测的实时发票数据;将所述实时发票数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量;当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本;根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时发票数据的监测结果。

【技术特征摘要】
1.一种企业发票数据监测方法,所述方法包括:获取待监测的实时发票数据;将所述实时发票数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量;当所述聚类中心的偏移量超过阈值范围时,获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本;根据所述最近邻算法以及所述样本所属的识别标签,得到所述实时发票数据的监测结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取用于训练聚类模型的历史发票数据;提取历史发票数据中的第一特征参数点,选择多个第一特征参数点作为初始聚类中心;根据所述初始聚类中心以及所述第一特征参数点进行聚类训练,得到聚类模型。3.根据权利要求2所述的方法,其特征在于,将所述实时发票数据输入预先训练的聚类模型,检测所述聚类模型的聚类中心的偏移量,包括:提取所述实时发票数据中的第二特征参数点,将所述第二特征参数点输入所述聚类模型;根据所述第二特征参数点、所述聚类模型的聚类中心和所述第一特征参数点进行聚类训练,得到偏移聚类模型;获取所述偏移聚类模型的偏移聚类中心,根据所述偏移聚类中心和所述聚类中心位置的偏移距离,得到所述聚类模型的聚类中心的偏移量。4.根据权利要求3所述的方法,其特征在于,获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本,包括:计算所述聚类模型中第一特征参数点与所述第二特征参数点的距离;获取距离最近的多个历史发票数据作为最近邻算法的样本。5.根据权利要求2至4任一项所述的方法,其特征在于,所述提取历史发票数据中的第一特征参数点,包括:获取历史发票数据中商品名称字段值以及规格型号字段值均相同的商品历史发票数据;提取商品历史发票数据中的合计金额字段值以及商品单价字段值,根据所述...

【专利技术属性】
技术研发人员:夏良超
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1