一种基于人工辅助的数据源采集方法、装置及设备制造方法及图纸

技术编号:20272565 阅读:20 留言:0更新日期:2019-02-02 03:40
本发明专利技术公开了一种基于人工辅助的数据源采集方法,能够在确定待采集的数据源之后,判断是否存在预先为该数据源设置的采集规则,在存在采集规则时直接获取采集规则,而不存在采集规则时,生成提示信息以提醒用户为该数据源设置采集规则,最后调用预设采集程序根据采集规则对数据源进行采集。可见,该方法预先为数据源设置了采集规则,在采集之前先通过查询预先设置的内容或者通过人工介入确定待采集数据源的采集规则,避免了由于数据源的不同而重构采集程序的过程,提高了采集效率,还提高了采集程序的兼容性和灵活性。此外,本发明专利技术还提供了一种基于人工辅助的数据源采集装置、设备计算机可读存储介质,其作用与上述方法相对应。

【技术实现步骤摘要】
一种基于人工辅助的数据源采集方法、装置及设备
本专利技术涉及数据源识别采集领域,特别涉及一种基于人工辅助的数据源采集方法、装置、设备及计算机可读存储介质。
技术介绍
我们知道,在进行数据源采集的时候,因为数据源可能是未知的,因此数据源格式可能多样化,为了更好的对数据源进行采集,往往需要在采集之前对数据源进行格式识别。然而,传统的识别程序往往只能识别已知或者是已经写入系统的数据源格式,不能很好的兼容新的数据源,每次遇到新的数据源需要重构程序或者方法,这使得程序的处理效率变得较低,程序的灵活性受到了限制。
技术实现思路
本专利技术的目的是提供一种基于人工辅助的数据源采集方法、装置、设备及计算机可读存储介质,用以解决传统的识别程序只能识别已知或者是已经写入系统的数据源格式,因此遇到新的数据源时往往需要重构程序或者方法,使得程序的处理效率较低,且限制了程序灵活性的问题。为解决上述技术问题,本专利技术提供了一种基于人工辅助的数据源采集方法,包括:确定待采集的数据源;判断是否存在预先为所述数据源设置的采集规则;若存在预先为所述数据源设置的采集规则,则获取所述采集规则;若不存在预先为所述数据源设置的采集规则,则生成提示信息以提醒用户为所述数据源设置采集规则;调用预设采集程序根据所述采集规则对所述数据源进行采集。其中,所述确定待采集的数据源包括:确定待采集的数据源的标识信息;所述判断是否存在预先为所述数据源设置的采集规则包括:根据所述标识信息,判断是否存在预先为所述数据源设置的采集规则。其中,所述根据所述标识信息,判断是否存在预先为所述数据源设置的采集规则包括:遍历识别库,判断所述识别库中是否存在所述标识信息,其中,所述识别库为预先设置的,所述识别库保存有数据源的标识信息,还保存有与所述标识信息对应的采集规则;若所述识别库中存在所述标识信息,则判断所述识别库中是否存在与所述标识信息对应的采集规则。其中,在所述生成提示信息以提醒用户为所述数据源设置采集规则之后,还包括:将用户为所述标识信息的数据源设置的采集规则保存到所述识别库中。其中,所述数据源包括以下数据类型中的任意一项或任意组合:文本、图片、视频、以及音频。其中,所述采集规则包括采集位置和/或采集顺序。相应的,本专利技术还提供了一种基于人工辅助的数据源采集装置,包括:数据源确定模块:用于确定待采集的数据源;判断模块:用于判断是否存在预先为所述数据源设置的采集规则;采集规则获取模块:用于若存在预先为所述数据源设置的采集规则,则获取所述采集规则;采集规则设置模块:用于若不存在预先为所述数据源设置的采集规则,则生成提示信息以提醒用户为所述数据源设置采集规则;数据源采集模块:用于调用预设采集程序根据所述采集规则对所述数据源进行采集。其中,所述判断模块包括:识别库遍历单元:用于遍历识别库,判断所述识别库中是否存在所述数据源的标识信息,其中,所述识别库为预先设置的,所述识别库保存有数据源的标识信息,还保存有与所述标识信息对应的采集规则;采集规则判断单元:用于若所述识别库中存在所述标识信息,则判断所述识别库中是否存在与所述标识信息对应的采集规则。此外,本专利技术还提供了一种基于人工辅助的数据源采集设备,包括:存储器:用于存储计算机程序;处理器:用于执行所述计算机程序,以实现如上所述的一种基于人工辅助的数据源采集方法的步骤。最后,本专利技术还提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的一种基于人工辅助的数据源采集方法的步骤。本专利技术所提供的一种基于人工辅助的数据源采集方法,能够在确定待采集的数据源之后,判断是否存在预先为该数据源设置的采集规则,在存在采集规则时获取所述采集规则,而不存在采集规则时,则生成提示信息以提醒用户为该数据源设置采集规则,最后调用预设采集程序根据采集规则对所述数据源进行采集。可见,该方法预先为数据源设置了采集规则,在采集之前先通过查询预先设置的内容或者通过人工介入确定待采集数据源的采集规则,避免了由于数据源的不同而重构采集程序的过程,提高了采集程序的兼容性和灵活性。此外,本专利技术还提供了一种基于人工辅助的数据源采集装置、设备计算机可读存储介质,其作用与上述方法相对应,这里不再赘述。附图说明为了更清楚的说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术所提供的一种基于人工辅助的数据源采集方法实施例一的实现流程图;图2为本专利技术所提供的一种基于人工辅助的数据源采集方法实施例二的实现流程图;图3为本专利技术所提供的一种基于人工辅助的数据源采集装置实施例的功能框图。具体实施方式本专利技术的核心是提供一种基于人工辅助的数据源采集方法、装置、设备及计算机可读存储介质,避免了由于数据源的不同而重构采集程序的过程,提高了采集效率,且提高了采集程序的兼容性和灵活性。为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在对数据源进行采集的过程中,每次遇到新的数据源格式,都需要确定新数据源的采集规则,而每次确定新的采集规则之后都需要对采集程序进行重构,重构代码的过程中需要投入新的人力和时间,导致数据采集效率很低,且限制了采集程序的灵活性。基于上述问题,本专利技术提供了一种基于人工辅助的数据源采集方法、装置、设备及计算机可读存储介质,下面分别对其进行介绍。首先,对本专利技术提供的一种基于人工辅助的数据源采集方法实施例一进行介绍,参见图1,实施例一包括:步骤S101:确定待采集的数据源。所述数据源是指计算机程序所能接收的任何信息,包括但不限于以下数据类型中的任意一项或任意组合:文本、图片、视频、以及音频。步骤S102:判断是否存在预先为所述数据源设置的采集规则。步骤S103:若存在预先为所述数据源设置的采集规则,则获取所述采集规则。步骤S104:若不存在预先为所述数据源设置的采集规则,则生成提示信息以提醒用户为所述数据源设置采集规则。步骤S105:调用预设采集程序根据所述采集规则对所述数据源进行采集。可见,本实施例所提供的一种基于人工辅助的数据源采集方法,能够在确定待采集的数据源之后,判断是否存在预先为该数据源设置的采集规则,在存在采集规则时获取所述采集规则,而不存在采集规则时,则生成提示信息以提醒用户为该数据源设置采集规则,最后调用预设采集程序根据采集规则对所述数据源进行采集。可见,该方法预先为数据源设置了采集规则,在采集之前先通过查询预先设置的内容或者通过人工介入确定待采集数据源的采集规则,避免了由于数据源的不同而重构采集程序的过程,提高了采集程序的兼容性和灵活性。下面开始详细介绍本专利技术提供的一种基于人工辅助的数据源采集方法实施例二,参见图2,实施例二具体包括:步骤S201:预先设置识别库。所述识别库保存有数据源的标识信息,还保存有本文档来自技高网
...

【技术保护点】
1.一种基于人工辅助的数据源采集方法,其特征在于,包括:确定待采集的数据源;判断是否存在预先为所述数据源设置的采集规则;若存在预先为所述数据源设置的采集规则,则获取所述采集规则;若不存在预先为所述数据源设置的采集规则,则生成提示信息以提醒用户为所述数据源设置采集规则;调用预设采集程序根据所述采集规则对所述数据源进行采集。

【技术特征摘要】
1.一种基于人工辅助的数据源采集方法,其特征在于,包括:确定待采集的数据源;判断是否存在预先为所述数据源设置的采集规则;若存在预先为所述数据源设置的采集规则,则获取所述采集规则;若不存在预先为所述数据源设置的采集规则,则生成提示信息以提醒用户为所述数据源设置采集规则;调用预设采集程序根据所述采集规则对所述数据源进行采集。2.如权利要求1所述的方法,其特征在于,所述确定待采集的数据源包括:确定待采集的数据源的标识信息;所述判断是否存在预先为所述数据源设置的采集规则包括:根据所述标识信息,判断是否存在预先为所述数据源设置的采集规则。3.如权利要求2所述的方法,其特征在于,所述根据所述标识信息,判断是否存在预先为所述数据源设置的采集规则包括:遍历识别库,判断所述识别库中是否存在所述标识信息,其中,所述识别库为预先设置的,所述识别库保存有数据源的标识信息,还保存有与所述标识信息对应的采集规则;若所述识别库中存在所述标识信息,则判断所述识别库中是否存在与所述标识信息对应的采集规则。4.如权利要3所述的方法,其特征在于,在所述生成提示信息以提醒用户为所述数据源设置采集规则之后,还包括:将用户为所述标识信息的数据源设置的采集规则保存到所述识别库中。5.如权利要求1-4任意一项所述的方法,其特征在于,所述数据源包括以下数据类型中的任意一项或任意组合:文本、图片、视频、以及音频。6.如权利要求1所...

【专利技术属性】
技术研发人员:杨小龙
申请(专利权)人:郑州市景安网络科技股份有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1