数据清洗方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:41135568 阅读:27 留言:0更新日期:2024-04-30 18:06
本申请公开了一种数据清洗方法、装置、电子设备和可读存储介质,属于计算机领域。所述数据清洗方法包括:获取目标用户的目标文本数据,所述目标文本数据为经过预处理后的数据;对所述目标文本数据进行实体词识别,得到M个实体词;对所述M个实体词进行归一化处理,得到N个标准词和K个非标准词;N+K小于或等于M,其中,K、M和N均为整数;从所述N个标准词和所述K个非标准词中确定出候选名词项,形成候选名词项集合;基于所述候选名词项集合,确定出满足目标条件的目标名词项集合。

【技术实现步骤摘要】

本申请属于计算机领域,具体涉及一种数据清洗方法、装置、电子设备和可读存储介质


技术介绍

1、在保险业务中,审核人员常常会面对复杂的证明材料,涉及到多种不同类型的数据,且数据之间的关联关系复杂,严重影响业务的进展。

2、因此,通过一种快捷的方式清洗数据,获取证明材料中重点内容的规范数据是业务过程中的迫切需求。


技术实现思路

1、本申请实施例提供一种数据清洗方法、装置、电子设备和可读存储介质,能够对文本数据进行清洗,得到规范数据。

2、第一方面,本申请实施例提供了一种数据清洗方法,该方法包括:

3、获取目标用户的目标文本数据,所述目标文本数据为经过预处理后的数据;

4、对所述目标文本数据进行实体词识别,得到m个实体词;

5、对所述m个实体词进行归一化处理,得到n个标准词和k个非标准词;n+k小于或等于m,其中,k、m和n均为整数;

6、从所述n个标准词和所述k个非标准词中确定出候选名词项,形成候选名词项集合;

>7、基于所述候选名本文档来自技高网...

【技术保护点】

1.一种数据清洗方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述目标名词项集合包括多条名词项记录,每一条名词项记录包括至少两个候选名词项。

3.根据权利要求2所述的方法,其特征在于,所述目标条件包括支持度条件和置信度条件;所述基于所述候选名词项集合,确定出满足目标条件的目标名词项集合,包括:

4.根据权利要求3所述的方法,其特征在于,所述目标名词项集合中的每一条名词项记录包括存在关联关系的两个候选名词项。

5.根据权利要求1-4任一项所述的方法,其特征在于,所述目标文本数据包括多个词语;所述对所述目标文本数据进行实体...

【技术特征摘要】

1.一种数据清洗方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述目标名词项集合包括多条名词项记录,每一条名词项记录包括至少两个候选名词项。

3.根据权利要求2所述的方法,其特征在于,所述目标条件包括支持度条件和置信度条件;所述基于所述候选名词项集合,确定出满足目标条件的目标名词项集合,包括:

4.根据权利要求3所述的方法,其特征在于,所述目标名词项集合中的每一条名词项记录包括存在关联关系的两个候选名词项。

5.根据权利要求1-4任一项所述的方法,其特征在于,所述目标文本数据包括多个词语;所述对所述目标文本数据进行实体词识别,得到m个实体词,包括:

...

【专利技术属性】
技术研发人员:李依尘李昊马双梅何骥汪强常宇航
申请(专利权)人:人保信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1