流水数据类型识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:38754808 阅读:12 留言:0更新日期:2023-09-10 09:39
本申请涉及一种流水数据类型识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段;将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。采用本方法能够提高流水数据的类别识别准确率和效率。别识别准确率和效率。别识别准确率和效率。

【技术实现步骤摘要】
流水数据类型识别方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种流水数据类型识别方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着信息技术的发展,国内的电子银行得到迅速发展,流水对账单逐渐从纸质的形式大量转化成电子流水的形式。各银行的电子银行都是由其自己管理,不存在统一格式的流水对账单,甚至同一家银行的电子流水也会存在多种不同的格式。
[0003]传统技术中,针对每一种格式的流水对账单配置有特定的识别模板,针对多个流水对账单进行识别时,往往根据模板判断所属银行需要遍历所有已配置的识别模板。
[0004]然而,随着电子银行的普及,电子流水数据呈现大数据趋势,识别模板的数量日益增多,需要遍历的数据也日益增多,判断单个流水对账单的效率会明显降低。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提高流水对账单类型识别效率的流水数据类型识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面,本申请提供了一种流水数据类型识别方法。所述方法包括:
[0007]获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段;
[0008]将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。
[0009]在其中一个实施例中,获取待识别流水数据中目标字段的字段信息,包括:
[0010]获取待识别数据中的目标字段;
[0011]对目标字段进行字段检测,确定待识别流水数据中各目标字段的字段名称、字段区域,以及各字段区域内的文本信息;
[0012]获取待识别数据对应的版式坐标系,基于各字段区域,得到各字段在版式坐标系中对应的坐标位置,作为目标字段的位置信息;
[0013]将位置信息,以及各字段区域内的文本信息,作为目标字段的区域信息,将区域信息与字段名称作为目标字段的字段信息。
[0014]在其中一个实施例中,对区域信息识别得到待识别流水数据对应的多个第一数据类型,包括:
[0015]基于目标字段的位置信息,作为目标位置信息,基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板;
[0016]提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本
特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板;
[0017]将第二类型模板对应的数据类型,作为待识别流水数据对应的第一数据类型。
[0018]在其中一个实施例中,基于目标位置信息对多个类型模板进行查询,得到对应目标位置信息的多个第一类型模板,包括:
[0019]获取多个类型模板中每个类型模板中目标字段的位置信息,作为第一位置信息;
[0020]基于目标位置信息,对多个第一位置信息进行查询,将与目标位置信息相匹配的第一位置信息作为第二位置信息;
[0021]将第二位置信息对应的类型模板,作为对应目标位置信息的第一类型模板。
[0022]在其中一个实施例中,提取目标字段的文本信息所对应的文本特征,作为目标文本特征,基于目标文本特征对多个第一类型模板进行查询,得到对应目标文本特征的多个第二类型模板,包括:
[0023]获取多个第一类型模板中每个第一类型模板中目标字段的文本特征,作为第一文本特征;
[0024]提取待识别流水数据中目标字段的文本信息所对应的文本特征,作为目标文本特征;
[0025]基于目标文本特征,对多个第一文本特征进行查询,将与目标文本特征相匹配的第一文本特征作为第二文本特征;
[0026]将第二文本特征对应的多个第一类型模板,作为对应目标文本特征的第二类型模板。
[0027]在其中一个实施例中,对字段名称识别得到待识别流水数据对应的多个第二数据类型,包括:
[0028]针对多个类型模板中每个类型模板,获取类型模板中的第一拆分词;其中,类型模板中目标字段的字段名称至少包括一个拆分词;
[0029]提取待识别流水数据中字段名称的名称特征;其中,名称特征为字段名称中数量最多的拆分词;
[0030]基于名称特征,对多个第一拆分词进行查询,将与名称特征相匹配的第一拆分词作为第二拆分词;
[0031]将第二拆分词对应的多个类型模板作为第三类型模板,将第三类型模板对应的数据类型,作为待识别流水数据对应的第二数据类型。
[0032]第二方面,本申请还提供了一种流水数据类型识别装置。所述装置包括:
[0033]字段信息获取模块,用于获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段;
[0034]数据识别模块,用于将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。
[0035]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施
例所述方法的步骤。
[0036]第四方面,本申请还提供了一种计算机设备可读存储介质。所述计算机设备可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述方法的步骤。
[0037]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述方法的步骤。
[0038]上述流水数据类型识别方法、装置、计算机设备、存储介质和计算机程序产品,首先,获取待识别流水数据中目标字段的字段信息;字段信息包括:目标字段的区域信息和字段名称;目标字段属于待识别流水数据中至少一个字段。然后,将字段信息输入预训练的流水数据类型识别模型进行识别,得到待识别流水数据的识别结果;流水数据类型识别模型用于,对区域信息识别得到待识别流水数据对应的多个第一数据类型,对字段名称识别得到待识别流水数据对应的多个第二数据类型,并基于第一数据类型与第二数据类型输出待识别流水数据对应的目标数据类型。通过区域信息、字段名称分别识别得到待识别流水数据对应的多个第一数据类型和多个第二数据类型,实现双重查询,基于上述双重查询确定并输出待识别流水数据对应的目标数据类型,可以提高流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流水数据类型识别方法,其特征在于,所述方法包括:获取待识别流水数据中目标字段的字段信息;所述字段信息包括:所述目标字段的区域信息和字段名称;所述目标字段属于所述待识别流水数据中至少一个字段;将所述字段信息输入预训练的流水数据类型识别模型进行识别,得到所述待识别流水数据的识别结果;所述流水数据类型识别模型用于,对所述区域信息识别得到所述待识别流水数据对应的多个第一数据类型,对所述字段名称识别得到所述待识别流水数据对应的多个第二数据类型,并基于所述第一数据类型与所述第二数据类型输出所述待识别流水数据对应的目标数据类型。2.根据权利要求1所述的方法,其特征在于,所述获取待识别流水数据中目标字段的字段信息,包括:获取所述待识别数据中的目标字段;对所述目标字段进行字段检测,确定所述待识别流水数据中各所述目标字段的字段名称、字段区域,以及各所述字段区域内的文本信息;获取所述待识别数据对应的版式坐标系,基于各所述字段区域,得到各所述字段在所述版式坐标系中对应的坐标位置,作为所述目标字段的位置信息;将所述位置信息,以及各所述字段区域内的文本信息,作为所述目标字段的区域信息,将所述区域信息与所述字段名称作为所述目标字段的字段信息。3.根据权利要求2所述的方法,其特征在于,所述对所述区域信息识别得到所述待识别流水数据对应的多个第一数据类型,包括:基于所述目标字段的所述位置信息,作为目标位置信息,基于所述目标位置信息对多个类型模板进行查询,得到对应所述目标位置信息的多个第一类型模板;提取所述目标字段的所述文本信息所对应的文本特征,作为目标文本特征,基于所述目标文本特征对多个所述第一类型模板进行查询,得到对应所述目标文本特征的多个第二类型模板;将所述第二类型模板对应的数据类型,作为所述待识别流水数据对应的第一数据类型。4.根据权利要求3所述的方法,其特征在于,所述基于所述目标位置信息对多个类型模板进行查询,得到对应所述目标位置信息的多个第一类型模板,包括:获取多个类型模板中每个所述类型模板中目标字段的位置信息,作为第一位置信息;基于所述目标位置信息,对多个所述第一位置信息进行查询,将与所述目标位置信息相匹配的所述第一位置信息作为第二位置信息;将所述第二位置信息对应的类型模板,作为对应所述目标位置信息的第一类型模板。5.根据权利要求3所述的方法,其特征在于,所述提取所述目标字段的所述文本信息所对应的文本特征,作为目标文本特征,基于所述...

【专利技术属性】
技术研发人员:何川
申请(专利权)人:见知数据科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1