【技术实现步骤摘要】
一种基于人工智能的NLP分析识别与数据清洗方法
[0001]本专利技术属于数据清洗
,尤其涉及一种基于人工智能的NLP分析识别与数据清洗方法。
技术介绍
[0002]数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
[0003]现有的对数据进行清洗仅仅按照程序简单的执行每一步的清洗的操作,并没有对每一步清洗操作的顺序和逻辑进行安排,导致清洗的速度、清洗的效率并不高。
技术实现思路
[0004]本专利技术提供一种基于人工智能的NLP分析识别与数据清洗方法,旨在解决现有的对数据进行清洗仅仅按照程序简单的执行每一步的清洗的操作,并没有对每一步清洗操作的顺序和逻辑进行安排,导致清洗的速度、清洗的效率并不高的问题。
[0005]本专利技术是这样实 ...
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的NLP分析识别与数据清洗方法,其特征在于:包括如下步骤:步骤S1、从网上爬取目标数据;步骤S2、通过NLP模块对目标数据进行分析识别;步骤S3、对分析识别后多余的、错误的或者不正常的数据进行清洗;其中在步骤S2中,NLP模块对目标数据按照数据的唯一性、权威性、合理性、一致性以及完整性依次对数据进行查重、权重排序、检查符不符合常识、对比分析一致性以及从其余数据提取部分数据进行补充。2.如权利要求1所述的一种基于人工智能的NLP分析识别与数据清洗方法,其特征在于:在步骤S2中包括如下步骤:步骤S21、NPL模块对数据的唯一性进行检查,并对重复部分进行标注,按重复部分的数量进行排序,并将其余多余数据进行删除;步骤S22、NPL模块对数据来源的权威性进行检查匹配,并分别赋予对应的权重后重新进行排序;步骤S23、NPL模块对数据内逻辑的合理性进行检测,并对不合理的数据提取出来单独排序;步骤S24、NPL模块对数据的一致性进行检测,并对反例进行单独排序;步骤S25、NPL模块对数据的完整性进行检查和补充。3.如权利要求2所述的一种基于人工智能的NLP分析识别与数据清洗方法,其特征在于:在步骤S24中包括如下步骤:步骤S241、对所有的数据进行检查,并逻辑对相同或者相似的数据进行归类;步骤S242、在多类数据中提取出相反或者相对的两类数据;步骤S243、在相反或者相对的两类数据中,按照该类数据的条目数量多少或者该类数据的总权重的多少进行比对,多的一方作为正常数据,反之则作为反例,提取出来单独排序。4.如权利要求2所述的一种基于人工智能的N...
【专利技术属性】
技术研发人员:荆斌华,
申请(专利权)人:锦创科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。