文本导入数据库方法、装置、设备及存储介质制造方法及图纸

技术编号:20916341 阅读:20 留言:0更新日期:2019-04-20 09:39
本发明专利技术公开了一种文本导入数据库的方法、装置、设备及存储介质,首先,通过间隔预设时间获取数据源的文本文件;然后划分文本文件,得到对应的字符文本;最后将字符文本按照预设的顺序发送至目标数据库,以使目标数据库根据预设的顺序重组字符文本。可见,本实施例提供的技术方案通过间隔预设时间获取文本文件,将大数据的文本文件按时间分成小的文本文件,然后对这小的文本文件进行处理,最后将处理后的文本文件发送至目标数据库,实现更好的适应数据挖掘和大数据处理。

Text Import Database Method, Device, Equipment and Storage Media

The invention discloses a method, device, device and storage medium for text import into database. Firstly, the text file of data source is acquired by interval preset time; secondly, the text file is divided to get corresponding character text; finally, the character text is sent to the target database in preset order, so that the target database can reorganize character text according to preset order. It can be seen that the technical scheme provided by this example obtains text files by preset intervals, divides large data text files into small text files according to time, then processes the small text files, and finally sends the processed text files to the target database, so as to achieve better adaptability to data mining and large data processing.

【技术实现步骤摘要】
文本导入数据库方法、装置、设备及存储介质
本专利技术实施例涉及大数据、分布式流式处理和数据库存储
,尤其涉及一种文本导入数据库方法、装置、设备及存储介质。
技术介绍
随着现代信息技术的快速发挥发展,各业务信息的数据量越来越大,并且随着分布式系统的发展,大量数据需要在分布式系统中的各个服务器之间进行传递。现有技术中,各个分布式机器读取操作数据都是通过分布式储存文件系统(HadoopDistributedFileSystem,HDFS),并且分布式计算将中间结果或者最终结果都是保存到HDFS上的,每次进行读取操作数据时,难以更好的适应数据挖掘和大数据处理。
技术实现思路
本专利技术提供一种文本导入数据库的方法、装置、设备及存储介质,实现更好的适应数据挖掘和大数据处理。第一方面,本专利技术实施例提供了一种文本导入数据库的方法,包括:间隔预设时间获取数据源的文本文件;划分所述文本文件,得到对应的字符文本;将所述字符文本按照预设的顺序发送至目标数据库,以使所述目标数据库根据所述预设的顺序重组所述字符文本。第二方面,本专利技术实施例还提供了一种文本导入数据库的装置,包括:文本获取模块,用于间隔预设时间获取数据源的文本文件;文本划分模块,用于划分所述文本文件,得到对应的字符文本;字符发送模块,用于将所述字符文本按照预设的顺序发送至目标数据库,以使所述目标数据库根据所述预设的顺序重组所述字符文本。第三方面,本专利技术实施例还提供了一种设备,所述设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中所述的文本导入数据库的方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现如第一方面中所述的文本导入数据库的方法。上述实施例提供的文本导入数据库的方法、装置、设备及存储介质,首先,通过间隔预设时间获取数据源的文本文件;然后划分文本文件,得到对应的字符文本;最后将字符文本按照预设的顺序发送至目标数据库,以使目标数据库根据预设的顺序重组字符文本。可见,本实施例提供的技术方案通过间隔预设时间获取文本文件,将大数据的文本文件按时间分成小的文本文件,然后对这小的文本文件进行处理,最后将处理后的文本文件发送至目标数据库,实现更好的适应数据挖掘和大数据处理。附图说明图1为本专利技术实施例一提供的文本导入数据库的方法的流程图;图2为本专利技术实施例一提供的文本导入数据库的方法流程图;图3为本专利技术实施例二提供的文本导入数据库的方法的流程图;图4为本专利技术实施例二提供的数据连接池的结构示意图;图5为本专利技术实施例三提供的使用SparkStreaming将数据写入MySql数据库的方法流程图;图6是本专利技术实施例四中的文本导入数据库的装置的结构示意图;图7为本专利技术实施例五提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的文本导入数据库的方法的流程图,本实施例可适用于向数据库写入数据的情况,本实施例提供的文本导入数据库的方法可以由文本导入数据库的装置来执行,该文本导入数据库的装置可以通过软件和/或硬件的方式实现。设定文本导入数据库的装置集成在服务器中,即文本导入数据库的方法由服务器来执行。需要说明的是,本专利技术实施例中的文本导入数据库的方法是指一种分布式流式文本导入数据库的方法。具体的,如图1所示,本实施例提供的文本导入数据库的方法主要包括如下步骤:S110、间隔预设时间获取数据源的文本文件。在本实施例中,所述文本文件是一种由若干行字符构成的计算机文件。进一步的,所述文本文件可为任意数据类型的文件,文本文件可包括多个子文件,每个子文件可以是例如为文档、图片、视频等类型的数据。本实施例不对文本文件的数据类型进行限定。所述数据源是指提供文本文件的来源。需要说明的是,文本文件可以是己经存储于数据库A中的,需要写入数据库B中的文本文件,也可以是新获取的未存储过的文本文件。相应的,如果是己经存储于数据库A中的文本文件,那么数据库A是文本文件的数据源。如果是新获取的未存储过的文本文件,那么生成文本文件的设备是文本文件的数据源。需要说明的是,本实施仅对预设时间进行说明,而非限定。可以根据实际情况设计的合理的预设时间。例如:在文本文件较大,或者服务器处理数据的速度较慢时,可以将预设时间设计的较小。具体的,预设时间优选为60秒。需要说明的是,数据源提供的是大数据文本文件。本实施例中,间隔预设时间获取数据源的文本文件是指通过间隔一段时间获取一次文本文件,将大数据文本文件可以分成若干个小的文本文件,然后按照批量处理的方式来处理这若干个小的文本文件,可以更好地适用于数据挖掘和大数据量处理。进一步的,从数据源获取到的文本文件存储在计算机的内存中,并且在计算机内存中进行处理和计算,可以大大的提高计算速度。在本实施例中,采用Java语言的软件开发工具包,其主要用于移动设备、嵌入式设备上的java应用程序。本实施例在预先搭建的Spark平台中实现,Spark是一个用来实现快速而通用的集群计算的平台,扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。Spark由于能够在内存中计算速度,在处理大规模数据集的时候,在提高计算速度方面有无可比拟的优势。;示例性的,从数据源的获取文本文件可以通过如下方式来实现:SparkConf().setAppName("StreamingWordCount")。间隔60秒拆分一次任务可以通过如下方式来实现:JavaStreamingContext(sparkConf,Durations.seconds(60))。需要说明的是,本实施例仅对获取文本文件的方法进行说明,而非限定。可以根据设计情况设计其他合理的获取方法。S120、划分所述文本文件,得到对应的字符文本。在本实施例中,首先要指定划分文本文件的分界符,然后根据分界符对所述文本文件进行划分。本实施例中,所述的字符文本是指字符按照一定的顺序排列的字符。进一步的,本实施例中的分界符至少换段符、换行符和字间隔符。以换段符和/或换行符为分界符,划分所述文本文件,得到至少一个单行文本文件。即在所述文本文件中,从所述文本文件的首个字符开始,查找所述换段符和/或换行符,若查找到第一个换段符和/或换行符,则将首个字符至第一个换段符和/或换行符之前的字符作为第一个单行文本文件,并将此单行文本文件编号为00。然后查找所述换段符和/或换行符,若查找到第二个换段符和/或换行符,则将所述第一个换段符和/或换行符与第二个换段符和/或换行符之间的字符作为第二个单行文本文件,并将此单行文本文件编号为01。按照上述查找方法,依次查询所述文本文件,直至查找到最后一个第一个换段符和/或换行符。并对所有单行文本文件进行编号。进一步的,所述分界符还包括字间隔符,所述字间隔符用于进行字符之前的间隔。以字间隔符为分界符,划分单行文本文本文档来自技高网...

【技术保护点】
1.一种文本导入数据库的方法,其特征在于,包括:间隔预设时间获取数据源的文本文件;划分所述文本文件,得到对应的字符文本;将所述字符文本按照预设的顺序发送至目标数据库,以使所述目标数据库根据所述预设的顺序重组所述字符文本。

【技术特征摘要】
1.一种文本导入数据库的方法,其特征在于,包括:间隔预设时间获取数据源的文本文件;划分所述文本文件,得到对应的字符文本;将所述字符文本按照预设的顺序发送至目标数据库,以使所述目标数据库根据所述预设的顺序重组所述字符文本。2.根据权利要求1所述的方法,其特征在于,所述间隔预设时间获取数据源的文本文件之前,还包括:建立访问所述数据库的数据库连接池;创建预设数量的访问所述数据库的数据库连接,并将所述数据库连接存放到所述数据库连接池中。3.根据权利要求1所述的方法,其特征在于,所述划分所述文本文件,得到对应的字符文本,包括:以换段符、换行符为第一分界符,划分所述文本文件,得到至少一个单行文本文件;以字间隔符为第二分界符,划分所述至少一个单行文本文件,得到对应的字符文本。4.根据权利要求2所述的方法,其特征在于,所述将所述字符文本按照预设的顺序发送至目标数据库,包括:通过外接函数从所述数据库连接池中申请并获取一个数据库连接;通过获取的数据库连接将所述字符文本按照预设的顺序发送至目标数据库。5.根据权利要求1所述的方法,其特征在于,所述获取的文本文件缓存在内存中。6.一种文本导入数据库的装置,其特征在于,包括:文本获取模块,用于间...

【专利技术属性】
技术研发人员:谢永恒朱飞飞万月亮
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1