【技术实现步骤摘要】
本说明书实施例涉及计算机,特别涉及一种字符分隔值文件的目标对象识别方法。
技术介绍
1、csv(comma-separated values,逗号分隔值,也称为字符分隔值)文件是一种常用的数据存储格式,广泛应用于各种业务场景,包括数据分析、数据库导入/导出、数据迁移等。然而,csv文件中的数据格式并没有合理的标准,不同应用程序读写的数据会存在细微的差别;例如,csv文件中的分隔符可以是逗号、制表符或其他字符,而文件中的表头和字段是否加引号,以及各个字段是否被引号括起这些都是没有统一规范的,如果被括起的话,那么是利用单引号括起还是双引号括起也是没有统一规范的。
2、csv文件中的字段分隔符可以为任意一个字符,导致手动或自动解析csv文件时可能会遇到困难,且csv文件中是否有表头通常只能通过人工分析,因此,亟需一种字符分隔值文件的目标对象识别方法,解决目前需要人工分析、判断、干预或编写特定代码来解析不同格式csv文件的问题。
技术实现思路
1、有鉴于此,本说明书实施例提供了一种字符
...【技术保护点】
1.一种字符分隔值文件的目标对象识别方法,其特征在于,包括:
2.根据权利要求1所述的字符分隔值文件的目标对象识别方法,其特征在于,所述预设特征提取方法包括分隔符特征提取方法、表头特征提取方法;
3.根据权利要求2所述的字符分隔值文件的目标对象识别方法,其特征在于,所述目标对象识别模型包括分隔符识别模型和/或表头识别模型;
4.根据权利要求2所述的字符分隔值文件的目标对象识别方法,其特征在于,所述根据所述分隔符特征提取方法,对所述待识别的字符分隔值文件进行特征提取,获得分隔符特征向量,包括:
5.根据权利要求4所述的字符
...【技术特征摘要】
1.一种字符分隔值文件的目标对象识别方法,其特征在于,包括:
2.根据权利要求1所述的字符分隔值文件的目标对象识别方法,其特征在于,所述预设特征提取方法包括分隔符特征提取方法、表头特征提取方法;
3.根据权利要求2所述的字符分隔值文件的目标对象识别方法,其特征在于,所述目标对象识别模型包括分隔符识别模型和/或表头识别模型;
4.根据权利要求2所述的字符分隔值文件的目标对象识别方法,其特征在于,所述根据所述分隔符特征提取方法,对所述待识别的字符分隔值文件进行特征提取,获得分隔符特征向量,包括:
5.根据权利要求4所述的字符分隔值文件的目标对象识别方法,其特征在于,所述根据所述各目标分隔符的出现次数最小值,获得分隔符特征向量,包括:
【专利技术属性】
技术研发人员:吴亮,
申请(专利权)人:极术杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。