基于词性比对的调证数据标题行识别方法、装置及可读介质制造方法及图纸

技术编号:42635599 阅读:28 留言:0更新日期:2024-09-06 01:34
本发明专利技术公开了一种基于词性比对的调证数据标题行识别方法、装置及可读介质,包括:对待识别文件进行文本解析,得到待识别文件中的各行数据记录;将每一个行数据记录中的字段在标题字段库进行查询,并统计命中字段的个数,判断是否为标题行或备选标题行;对无法确定为标题行或备选标题行的行数据记录中的每个字段进行词性标注,根据每个字段的词性以及词性与权重的对应关系确定每个字段对应的权重,并统计每一个行数据记录的所有字段的权重总分、所有行数据记录的权重总分的平均值以及行数据记录的平均字段个数,以进一步进行筛选,确定该行数据记录为备选标题行,在备选标题行中确定是否为标题行,能够提高识别准确性和处理效率。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,具体涉及一种基于词性比对的调证数据标题行识别方法、装置及可读介质


技术介绍

1、现有调证数据的文件类型包括有text、pdf、excel等,同时调证数据来源多种对样。存在以下几种复杂情况:

2、1)如图1所示,单个文件中包含有多个调单对象的综合信息,需根据调单对象进行数据划分,从而对于数据进行分块处理。

3、2)如图2所示,单个文件为单个人的不同类型的综合数据,以话单调证数据为例,可能包括账户开户数据以及话单流水数据,需根据数据资源的类型进行区分处理。

4、3)调证数据基于不同调取系统的不同,相同资源类型的标题行的字段命名存在差异。

5、随着数据的海量增长,大量的调证数据需要进行人工预览划分数据表,找到数据的标题行,进而根据标题行确定数据类型,进行字段对标,配置相应的数据清洗和处理规则,这些工作耗费巨大人力。

6、现有的处理方案中,一般通过内置标题字段库,将解析后的各行数据字段依次和字段库中字段进行匹配比对,筛选字段标题行。对于未出现的资源类型,需要提前进行配置,不能本文档来自技高网...

【技术保护点】

1.一种基于词性比对的调证数据标题行识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述文本解析的过程如下:

3.根据权利要求1所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述根据所述命中字段的个数判断该行数据记录是否为标题行或备选标题行,具体包括:

4.根据权利要求1所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述每一个行数据记录的所有字段的权重总分score采用下式计算:

5.根据权利要求4所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述...

【技术特征摘要】

1.一种基于词性比对的调证数据标题行识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述文本解析的过程如下:

3.根据权利要求1所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述根据所述命中字段的个数判断该行数据记录是否为标题行或备选标题行,具体包括:

4.根据权利要求1所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述每一个行数据记录的所有字段的权重总分score采用下式计算:

5.根据权利要求4所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述词性与权重的对应关系中时间词性字段所对应的权重、数词字段所对应的权重、动词字段所对应的权重和名词字段所对应的权重依次减小,空字段所对应的权重位于动词字段所对应的权重和名...

【专利技术属性】
技术研发人员:马晓泉张磊姚志强邢磊刘璐
申请(专利权)人:厦门市美亚柏科信息安全研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1