The invention discloses a method, a data access device, device and computer readable storage medium, through the acquisition and access to the first external data set corresponds to at least one of the first to be mapped to the amount according to the field; and the first to be corresponding to each word in the word mapping field, corresponding with the first the external data set for matching vector data set; according to the matching set of data vectors and the pre training data set classification model, and determine the first external data set, the first standard data set; according to the first standard number according to standard concentration field and the first to be similarity mapping between fields. The first field is the first to establish the mapping relationship between the mapping field and the standard field; according to the first field mapping relationship, the first external data set. Enter the first standard data set. The invention can realize automatic recommendation of data access and automatic mapping of field level.
【技术实现步骤摘要】
一种数据接入的方法、装置、计算机设备和可读存储介质
本专利技术实施例涉及数据处理技术,尤其涉及一种数据接入的方法、装置、计算机设备和可读存储介质。
技术介绍
在企业生产过程中,每天都有大量的数据接入工作,如中国移动需要接入每个用户的电话信息的数据、短信的数据、QQ聊天的数据、微信数据等,并且接入的数据格式往往并不相同,企业需要投入大量的时间和人力来配置不同格式的数据的入库格转策略。目前,主要使用人工的方式实现上述数据接入工作,这种人工配置格转策略的技术缺陷在于:数据接入成本高、效率低下以及扩展性差。
技术实现思路
本专利技术提供一种数据接入的方法、装置、计算机设备和可读存储介质,以实现数据接入的自动推荐和字段级别的自动映射。第一方面,本专利技术实施例提供了一种数据接入的方法,包括:获取与待接入的第一外部数据集对应的至少一个第一待映射字段;根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量;根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集;根据所述第一标准数据集中的标准字段与所 ...
【技术保护点】
一种数据接入的方法,其特征在于,包括:获取与待接入的第一外部数据集对应的至少一个第一待映射字段;根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量;根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集;根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系;根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。
【技术特征摘要】
1.一种数据接入的方法,其特征在于,包括:获取与待接入的第一外部数据集对应的至少一个第一待映射字段;根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量;根据所述待匹配数据集向量以及预先训练的数据集分类模型,确定与所述第一外部数据集匹配的第一标准数据集;根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系;根据所述第一字段映射关系,将所述第一外部数据集接入至所述第一标准数据集中。2.根据权利要求1所述的方法,其特征在于,在根据所述第一标准数据集中的标准字段与所述第一待映射字段之间的相似度,建立所述第一待映射字段与所述标准字段之间的第一字段映射关系之后,还包括:计算与所述第一待映射字段对应的第一字段身份标识;将所述第一字段身份标识、所述第一标准数据集身份标识以及所述第一字段映射关系存储于映射缓存表中。3.根据权利要求2所述的方法,其特征在于,还包括:获取与待接入的第二外部数据集对应的至少一个第二待映射字段;计算与所述第二待映射字段对应的第二字段身份标识;如果确定所述映射缓存表中存储有所述第二字段身份标识,则获取所述映射缓存表中与所述第二字段身份标识对应的第二标准数据集身份标识以及第二字段映射关系;根据所述第二字段映射关系,将所述第二外部数据集接入至所述第二标准数据集中。4.根据权利要求1所述的方法,其特征在于,根据与所述第一待映射字段中的各分词对应的词向量,得到与所述第一外部数据集对应的待匹配数据集向量,包括:根据预先训练的分词器,确定所述第一待映射字段的各分词;根据词向量模型,得到所述各分词对应的词向量;将所述各分词对应的词向量组合,得到与所述第一外部数据集对应的待匹配数据集向量。5.根据权利要求2所述的方法,其特征在于,计算与所述第一待映射字段对应的第一字段身份标识,包括:如果确定所述第一待映射字段的数量为至少两个,则根据预设排序规则,将各所述第一待映射字段进行排序;将所述排序后的各第一待映射字段合并为长字符串;根据哈希算法计算所述长字符串的哈希值作为所述第一字段身份标识。6.根据权利要求1-5任一项所述的方法,其特征在于:所述数据集分类模型为多层感知机MLP模型;所述分词器为条件随机场CRF模型;所述词向量模型为基于分层软性最大值HierarchicalSoftmax的跨词序列Skip-Gram模型。7.一种数据接入的装置,其特征在于,包括:第一待映射字段获取模块,用于获取与待接入的第一外部数据集对应的至少一个第一待映射字段;待匹配数据集向量得到模块,用于根据与所述第...
【专利技术属性】
技术研发人员:谢永恒,李贺,火一莽,万月亮,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。