【技术实现步骤摘要】
一种数据收集方法、装置、电子设备及存储介质
[0001]本专利技术涉及数据同步
,具体涉及一种数据收集方法、装置、电子设备及存储介质。
技术介绍
[0002]当前人工智能和大数据等技术普遍应用,这些技术的发展经常依赖海量数据样本。以人工智能为例,为了研发更高精度的模型,需要尽可能的使用更多数据样本进行模型训练,因此需要构建大规模的样本库。目前常用的样本库构建方法是从数据拥有者处拷贝样本,自行制造生产如拍摄图像,或者从互联网等其他来源获取,并且在获取原始样本后,根据需要进行必要的样本标注。
[0003]由于其他从事类似工作的组织或个人也普遍建有样本库,若将其他外部样本库的数据也用于本地人工智能模型训练,则利于获得更高精度的模型。人工智能模型训练前需先制作训练数据集,比如图片读取、缩放和保存等操作,此类操作需要在本地进行,因此需将其他外部样本库的数据引入本地样本库。现有方法是将外部样本库的数据拷贝至本地,进行一定必要的的数据格式转换或类别转换后,按本地数据组织形式并入本地样本库。
[0004]现有的方法若想 ...
【技术保护点】
【技术特征摘要】
1.一种数据收集方法,其特征在于,包括:获取外部数据的数据信息、数据同步记录和数据使用记录;根据所述数据信息、所述数据同步记录和所述数据使用记录,按照预设评价函数计算任一外部数据的收集权重;基于收集权重和收集方式的对应关系,根据所述收集权重确定相应的收集方式;根据确定的收集方式,收集外部数据和/或外部数据的数据信息。2.根据权利要求1所述的数据收集方法,其特征在于,所述数据信息包括:数据类别和数据描述信息;所述获取外部数据的数据信息,包括:获取外部数据类别列表和本地数据类别列表;根据外部数据类别列表、本地数据类别列表和预设的类别映射表,将外部数据类别映射为本地数据类别。3.根据权利要求1所述的数据收集方法,其特征在于,所述根据所述数据信息、所述数据同步记录和所述数据使用记录,按照预设评价函数计算任一外部数据的收集权重,包括:根据所述数据信息、所述数据同步记录和预设的成本权重系数,计算任一外部数据的收集成本;根据所述数据信息、所述数据使用记录和预设的价值权重系数,计算任一外部数据的使用价值;根据所述收集成本、所述使用价值和所述预设评价函数,计算任一外部数据的收集权重。4.根据权利要求3所述的数据收集方法,其特征在于,所述根据所述数据信息、所述数据同步记录和预设的成本权重系数,计算任一外部数据的收集成本,包括:根据所述数据信息和所述数据同步记录,计算任一外部数据的预计时间成本和预计带宽成本;根据所述预计时间成本和所述预计带宽成本,按照预设的成本权重系数进行加权计算,得到外部数据的收集成本。5.根据权利要求3所述的数据收集方法,其特征在于,所述根据所述数据信息、所述数据使用记录和预设的价值权重系数,计算任一外部数据的使用价值,包括:根据所述数据信息和所述数据使用记录,计算任一外部数据的预计使用次数和预计数据质量;根据所述预计使用次数...
【专利技术属性】
技术研发人员:王岳,林龙,史存存,杨訸,梁东,王艺霏,李信,尚芳剑,娄竞,彭柏,李坚,吴佳,
申请(专利权)人:国网冀北电力有限公司信息通信分公司国网冀北电力有限公司国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。