文本文件解析方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:24331631 阅读:28 留言:0更新日期:2020-05-29 19:52
本发明专利技术实施例涉及互联网技术领域,提供一种文本文件解析方法、装置、计算机设备及存储介质,所述方法包括:获取待解析的文本文件,其中,文本文件中包括待解析文本数据;依据映射表对待解析文本数据进行解析,得到与待解析文本数据对应的数据对象,其中,映射表用于表征待解析文本数据与数据对象之间的映射关系;将数据对象存入数据库。与现有技术相比,本发明专利技术实施例能够当文本格式中的数据列增加或者减少时无需要重新修改代码,只需要修改映射表,降低了维护成本,同时提高了文本文件解析方法的兼容度。

Text file analysis method, device, computer equipment and storage medium

【技术实现步骤摘要】
文本文件解析方法、装置、计算机设备及存储介质
本专利技术涉及互联网
,具体而言,涉及一种文本文件解析方法、装置、计算机设备及存储介质。
技术介绍
在很多行业中,数据通常以文本格式进行处理和传递,以结构化的形式存储于数据库中,因此,在使用过程中通常需要将文本格式的数据解析成结构化数据,或者将结构化数据再转换成文本格式。现有技术在解析文本格式的数据时,主要使用主流开放源码函式库进行文本格式的数据进行读写,然后将其组织成预设格式,这种实现方式下,当文本格式中的数据列增加或者减少时需要重新修改代码,兼容度差且维护成本高。
技术实现思路
本专利技术的目的在于提供了一种文本文件解析方法、装置、计算机设备及存储介质,其能够当文本格式中的数据列增加或者减少时无需要重新修改代码,只需要修改映射表,降低了维护成本,同时提高了文本文件解析方法的兼容度。为了实现上述目的,本专利技术实施例采用的技术方案如下:第一方面,本实施例提供一种文本文件解析方法,应用于计算机设备,所述方法包括:获取待解析的文本文件,其中,文本文件中包括待解析文本数据;依据映射表对待解析文本数据进行解析,得到与待解析文本数据对应的数据对象,其中,映射表用于表征待解析文本数据与数据对象之间的映射关系;将数据对象存入数据库。第二方面,本实施例提供一种文本文件解析装置,应用于计算机设备,所述装置包括获取模块、解析模块及存储模块,其中,获取模块,用于获取待解析的文本文件,其中,文本文件中包括待解析文本数据;解析模块,用于依据映射表对待解析文本数据进行解析,得到与待解析文本数据对应的数据对象,其中,映射表用于表征待解析文本数据与数据对象之间的映射关系;存储模块,用于将数据对象存入数据库。第三方面,本实施例提供一种计算机设备,所述计算机设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前述实施方式中任一项所述的文本文件解析方法。第四方面,本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述实施方式中任一项所述的文本文件解析方法。相对于现有技术,本专利技术实施例提供了一种文本文件解析方法、装置、计算机设备及存储介质,通过建立待解析文本数据与数据对象之间的映射关系,依据该映射关系对待解析文本数据进行解析,得到与待解析文本数据对应的数据对象,最后再把数据对象存入数据库,由于待解析文本数据与数据对象之间的映射关系保存至映射表中,因而可以在文本格式中的数据列增加或者减少而导致的待解析文本数据与数据对象之间的映射关系发生变化时,无需要重新修改代码,只需要修改映射表,降低了维护成本,同时提高了文本文件解析方法的兼容度。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本专利技术实施例所提供的现有技术中文本文件的处理过程的示意图。图2示出了本专利技术实施例所提供的现有技术中文本文件处理过程中的数据组织的示例图。图3示出了本专利技术实施例所提供的一种文本文件解析方法的流程图。图4示出了本专利技术实施例所提供的另一种文本文件解析方法的流程图。图5示出了本专利技术实施例所提供的文本文件解析过程的示意图。图6示出了本专利技术实施例所提供的另一种文本文件解析方法的流程图。图7示出了本专利技术实施例所提供的另一种文本文件解析方法的流程图。图8示出了本专利技术实施例所提供的一种文本文件解析装置的结构框图。图9示出了本专利技术实施例提供的计算机设备的方框示意图。图标:10-计算机设备;11-存储器;12-通信接口;13-处理器;14-总线;100-文本文件解析装置;110-获取模块;120-解析模块;130-存储模块;140-导出模块。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本专利技术的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该专利技术产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。需要说明的是,在不冲突的情况下,本专利技术的实施例中的特征可以相互结合。通常情况下,对文本文件的解析均采用单行解析,逐行读取文本文件中的数据,然后对每一行数据按照自定义格式进行组织,生成每一行数据对应的集合,自行实现从该集合写入至数据库的代码逻辑,最终将文本文件写入至存入数据库。请参照图1,图1示出了本专利技术实施例所提供的现有技术中文本文件的处理过程的示意图,另外,从数据库导出数据至文本文件的过程为该过程的逆过程,此处就不专门以图示说明。需要说明的是,对于EXCEL类型的文本文件,可以通过SAX(SimpleAPIforXML)模式进行逐行读取并解析,也可以通过提供良好封装的用户模式进行全部读取并解析,SAX模式依序读文件,可以处理任何大小的文件,但是不支持对文件的随意存储,用户模式可以随意存取文本文件中的数据,但是不适于处理大型的文本文件。请参照图2,图2示出了本专利技术实施例所提供的现有技术中文本文件处理过程中的数据组织的示例图,文本文件中包括两行数据,每行数据包括4列,对每行数据进行解析,生成对应的链表LIST,将两行数据分别对应的LIST合并成LIST集合,按照每一列对应的字段名称的映射规则,生成该LIST集合对应的简单的JAVA对象POJO(PlainOrdinaryJavaObject)集合,再将POJO集合写入至数据库。当文本文件中的列增加或者减少时,整个实现过程需要重新调整,对应的实现代码也要适应性修改,维护成本高,兼容度差。另外,整个过程中解析、生成LIST,合并LIST集合、生成POJO集合,本文档来自技高网...

【技术保护点】
1.一种文本文件解析方法,其特征在于,应用于计算机设备,所述方法包括:/n获取待解析的文本文件,其中,所述文本文件中包括待解析文本数据;/n依据映射表对所述待解析文本数据进行解析,得到与所述待解析文本数据对应的数据对象,其中,所述映射表用于表征所述待解析文本数据与所述数据对象之间的映射关系;/n将所述数据对象存入数据库。/n

【技术特征摘要】
1.一种文本文件解析方法,其特征在于,应用于计算机设备,所述方法包括:
获取待解析的文本文件,其中,所述文本文件中包括待解析文本数据;
依据映射表对所述待解析文本数据进行解析,得到与所述待解析文本数据对应的数据对象,其中,所述映射表用于表征所述待解析文本数据与所述数据对象之间的映射关系;
将所述数据对象存入数据库。


2.如权利要求1所述的文本文件解析方法,其特征在于,所述文本文件还包括字段标识及与所述字段标识对应的字段值,所述数据对象还包括对象属性,所述映射表包括映射类型及所述字段标识与所述对象属性之间的映射关系,所述依据映射表对所述待解析文本数据进行解析,得到与所述待解析文本数据对应的数据对象的步骤包括:
依据所述映射类型从所述解析文本数据中分离出与所述字段标识对应的字段值;
依据所述映射关系生成初始对象,并用所述字段值为所述初始对象的对象属性赋值,得到与所述待解析文本数据对应的数据对象。


3.如权利要求2所述的文本文件解析方法,其特征在于,所述映射表还包括校验规则,所述依据所述映射类型从所述解析文本数据中分离出与所述字段标识对应的字段值的步骤之后还包括:
当所述校验规则中存在与所述字段标识对应的目标校验规则时,判断所述字段值是否被校验;
当所述字段值未被校验时,依据所述目标校验规则校验所述字段值。


4.如权利要求3所述的文本文件解析方法,其特征在于,所述判断所述字段值是否被校验的步骤包括:
若所述字段值存在于与所述字段标识对应的预设去重集合中,则判定所述字段值被校验;
若所述字段值未存在于与所述字段标识对应的预设去重集合中,则判定所述字段值未被校验。


5.如权利要求4所述的文本文件解析方法,其特征在于,所述当所述字段值未被校验时,依...

【专利技术属性】
技术研发人员:王彭
申请(专利权)人:恩亿科北京数据科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1