【技术实现步骤摘要】
本专利技术涉及数据处理领域,具体涉及一种基于词性比对的调证数据标题行识别方法、装置及可读介质。
技术介绍
1、现有调证数据的文件类型包括有text、pdf、excel等,同时调证数据来源多种对样。存在以下几种复杂情况:
2、1)如图1所示,单个文件中包含有多个调单对象的综合信息,需根据调单对象进行数据划分,从而对于数据进行分块处理。
3、2)如图2所示,单个文件为单个人的不同类型的综合数据,以话单调证数据为例,可能包括账户开户数据以及话单流水数据,需根据数据资源的类型进行区分处理。
4、3)调证数据基于不同调取系统的不同,相同资源类型的标题行的字段命名存在差异。
5、随着数据的海量增长,大量的调证数据需要进行人工预览划分数据表,找到数据的标题行,进而根据标题行确定数据类型,进行字段对标,配置相应的数据清洗和处理规则,这些工作耗费巨大人力。
6、现有的处理方案中,一般通过内置标题字段库,将解析后的各行数据字段依次和字段库中字段进行匹配比对,筛选字段标题行。对于未出现的资源类型,需
...【技术保护点】
1.一种基于词性比对的调证数据标题行识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述文本解析的过程如下:
3.根据权利要求1所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述根据所述命中字段的个数判断该行数据记录是否为标题行或备选标题行,具体包括:
4.根据权利要求1所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述每一个行数据记录的所有字段的权重总分score采用下式计算:
5.根据权利要求4所述的基于词性比对的调证数据标题行识别方
...【技术特征摘要】
1.一种基于词性比对的调证数据标题行识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述文本解析的过程如下:
3.根据权利要求1所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述根据所述命中字段的个数判断该行数据记录是否为标题行或备选标题行,具体包括:
4.根据权利要求1所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述每一个行数据记录的所有字段的权重总分score采用下式计算:
5.根据权利要求4所述的基于词性比对的调证数据标题行识别方法,其特征在于,所述词性与权重的对应关系中时间词性字段所对应的权重、数词字段所对应的权重、动词字段所对应的权重和名词字段所对应的权重依次减小,空字段所对应的权重位于动词字段所对应的权重和名...
【专利技术属性】
技术研发人员:马晓泉,张磊,姚志强,邢磊,刘璐,
申请(专利权)人:厦门市美亚柏科信息安全研究所有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。