The invention discloses a method for automatically collecting data, including: generating a dictionary based on a data source file, the data source file including a plurality of field names and data corresponding to each field name, each element of the dictionary including the field name, the phonetic initial of the field name and the address of the field name in the data source file, receiving the target field name, finding the target field name in the dictionary, and Address of the target field name in the data source file; collect the data corresponding to the target field name and the target field name from the data source file according to the address of the target field name. The invention can quickly collect data from the data source file by looking up the dictionary. In addition, the establishment of the dictionary and the search and collection of the field object are automatic and do not need the participation of human, so the invention can greatly improve the efficiency of data collection. The invention also discloses a device, medium, device and system for automatically collecting data.
【技术实现步骤摘要】
一种自动收集数据的方法、装置、介质、设备及系统
本专利技术涉及机器学习领域,具体涉及一种自动收集数据的方法、装置、介质、设备及系统。
技术介绍
机器学习意味着从数据中进行学习,是一种寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。机器学习算法需要作用于数据,因此数据收集工作对于机器学习来说是非常关键的步骤。然而,现有技术中通常采用手工/半手工作业的方法来收集数据,耗时长、效率低。中国专利CN201710231941.X提供了一种数据获取方法,包括接收上传的数据图片,数据图片包括业务主体在业务过程中形成的业务数据,业务数据包括业务主体的主体标识以及业务内容;识别数据图片上的主体标识和业务内容;将业务内容存储至主体标识对应的主体数据库中。该专利中描述的方法是对图片中的数据进行收集,用于商业综合体获取各个店铺的销售数据,但由于在机器学习领域数据源文件通常不为图片格式,因此该专利不能用于机器学习领域以解决上述数据收集效率低下的问题。
技术实现思路
为了解决上述问题,本专利技术提供一种自动收集数 ...
【技术保护点】
1.一种自动收集数据的方法,其特征在于,所述方法包括:/n基于数据源文件生成字典,所述数据源文件包括多个字段名以及各所述字段名对应的数据,所述字典的每个元素包括所述字段名、所述字段名的拼音首字母以及所述字段名在所述数据源文件中的地址;/n接收目标字段名;/n在所述字典中查找所述目标字段名以及所述目标字段名在所述数据源文件中的地址;/n根据所述目标字段名的地址从所述数据源文件收集所述目标字段名及所述目标字段名对应的数据。/n
【技术特征摘要】
1.一种自动收集数据的方法,其特征在于,所述方法包括:
基于数据源文件生成字典,所述数据源文件包括多个字段名以及各所述字段名对应的数据,所述字典的每个元素包括所述字段名、所述字段名的拼音首字母以及所述字段名在所述数据源文件中的地址;
接收目标字段名;
在所述字典中查找所述目标字段名以及所述目标字段名在所述数据源文件中的地址;
根据所述目标字段名的地址从所述数据源文件收集所述目标字段名及所述目标字段名对应的数据。
2.根据权利要求1所述的方法,其特征在于,基于所述数据源文件生成所述字典包括:
获取所述数据源文件中的各所述字段名;
去除所述字段名中的特殊符号;
提炼所述字段名的拼音首字母;
生成所述字段名在所述数据源文件中的地址;
将各所述字段名、各所述字段名的拼音首字母以及各所述字段名在所述数据源文件中的地址分别添加到所述字典的各所述元素中。
3.根据权利要求2所述的方法,其特征在于,基于所述数据源文件生成所述字典还包括:
对所述字典的各所述元素按照所述元素中包含的所述字段名的拼音首字母的前后顺序进行排列;
合并包含相同的所述字段名的所述元素,合并后所述元素中包含的所述字段名在所述数据源文件中的地址包括各个被合并所述元素中包含的所述字段名在所述数据源文件中的地址,或者合并后所述元素中包含的所述字段名在所述数据源文件中的地址为任意一个被合并所述元素中包含的所述字段名在所述数据源文件中的地址。
4.根据权利要求3所述的方法,其特征在于,所述字典的每个元素还包括所述字段名的词频,所述字段名的词频表示所述字段名在所述数据源文件中出现的次数;
基于所述数据源文件生成所述字典还包括在合并包含相同的所述字段名的所述元素时,计算所述字段名的词频并添加到所述字典的所述元素中。
5.根据权利要求1所述的方法,其特征在于,在所述字典中查找所述目标字段名以及所述目标字段名在所述数据源文件中的地址包括:
提炼所述目标字段名的拼音首字母;
在字典中查找拼音首字母匹配元素,所述拼音首字母匹配元素包含的所述字段名的拼音首字母与所述目标字段名的拼音首字母相同;
在所述拼音首字母匹配元素中查找字段名匹配元素,所述字段名匹配元素包含的所述字段名与所述目标字段名相同;
获取所述字段名匹配元素包含的所述字段名在所述数据源文件中的地址。
6.根据权利要求5所述的方法,其特征在于,当所述字段名匹配元素包含多个所述字段名在所述数据源文件中的地址时,获取任意一个所述字段名在所述数据源文件中的地址。
7.根据权利要求1...
【专利技术属性】
技术研发人员:俞松,宫崎那彦,
申请(专利权)人:株式会社日立制作所,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。