数据对标方法、装置、及存储装置制造方法及图纸

技术编号：23343424 阅读：38 留言：0更新日期：2020-02-15 03:54

本发明专利技术公开了一种数据对标方法、装置、及存储装置。其中数据对标方法包括：从待对标数据表中提取原始数据信息，该原始数据信息包括字段名、以及与该字段名相对应的字段注释；基于深度学习的序列标注模型对该字段注释进行识别以获取与该字段名相对应的特性词；将该与字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配；对第一文本匹配后输出的结果进行校验。通过上述方式，在识别出特征词的基础上再进行文本匹配，提高了文本匹配结果的可信度，降低了对标过程中的误匹配率。

Data benchmarking method, device and storage device

全部详细技术资料下载

【技术实现步骤摘要】
数据对标方法、装置、及存储装置
本申请涉及数据治理
，特别是涉及一种数据对标方法、装置、及存储装置。
技术介绍
数据对标是数据治理的一个重要环节，是将非标准数据项表示对标到符合标准规范的数据项表示。具体地，数据项对标可拆分为数据元(由对象、特性词和表示词三大要素构成)对标和限定词(对象的修饰词)对标两部分。现有技术中多基于字段名的相似度匹配方法，由于实际的不规范的字段命名方式多样(通常包括英文、尤其是汉语拼音首字母缩写)，因此对于大量存在的汉语拼音缩写容易引起误匹配；另一方面，现有技术中没有对数据元的三要素进行识别，从而无法对误匹配到的数据元进行有效校验；而基于字段注释的数据，则面临实际的注释过长，冗余信息过多，使得文本相似度偏低，导致结果不可信。此外，现有方法对于未匹配到的字段缺乏自动新增标准数据项功能。因此，急需一种新的数据对标方法以解决现有技术中存在的易误匹配、无法有效校验、及缺乏自动新增标准数据项功能的问题。
技术实现思路
本申请提供一种数据对标方法、装置、及存储装置，能够解决现有技术中存在...

【技术保护点】
1.一种数据对标方法，其特征在于，包括：/n从待对标数据表中提取原始数据信息，所述原始数据信息包括字段名、以及与所述字段名相对应的字段注释；/n基于深度学习的序列标注模型对所述字段注释进行识别以获取与所述字段名相对应的特性词；/n将所述与所述字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配；/n对第一文本匹配后输出的结果进行校验，所述结果为第一文本匹配上的标准数据元或第一文本未匹配上的特性词。/n

【技术特征摘要】
1.一种数据对标方法，其特征在于，包括：
从待对标数据表中提取原始数据信息，所述原始数据信息包括字段名、以及与所述字段名相对应的字段注释；
基于深度学习的序列标注模型对所述字段注释进行识别以获取与所述字段名相对应的特性词；
将所述与所述字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配；
对第一文本匹配后输出的结果进行校验，所述结果为第一文本匹配上的标准数据元或第一文本未匹配上的特性词。

2.根据权利要求1所述的方法，其特征在于，所述原始数据信息还包括表名、以及与所述字段名相对应的采样数据，基于深度学习的文本分类模型对所述表名和所述字段注释进行文本分类以获取与所述字段名相对应的对象和表示词；所述“对第一文本匹配后输出的结果进行校验”的步骤包括：
对所述与字段名相对应的对象和表示词是否分别与第一文本匹配上的标准数据元中的对象和表示词一致进行第一判定，以及基于所述采样数据是否与第一文本匹配上的标准数据元中的表示词一致进行第二判定；
当所述第一判定和所述第二判定的结果均为一致时，基于所述第一文本匹配上的标准数据元对所述字段名进行对标；或者
基于所述采样数据是否和与所述字段名相对应的表示词一致进行第三判定；
当所述第三判定的结果为一致时，将所述与所述字段名相对应的对象和表示词、以及所述第一文本未匹配上的特性词作为新增标准数据元添加至所述标准库中。

3.根据权利要求1所述的方法，其特征在于，所述数据对标方法还包括：
基于深度学习的序列标注模型对所述字段注释进行识别以获取与所述字段名相对应的限定词；
将所述与所述字段名相对应的限定词与标准库中的标准限定词进行第二文本匹配并输出结果，所述结果为第二文本匹配上的标准限定词或第二文本未匹配上的限定词。

4.根据权利要求3所述的方法，其特征在于，所述数据对标方法还包括：
基于所述第二文本匹配上的标准限定词对所述字段名进行对标；或者
将所述第二文本未匹配上的限定词作为新增标准限定词添加至所述标准库中。

5.根据权利要求3所述的方法，其特征在于，所述“将所述与所述字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配”的步骤包括：
计算所述特性词与标准库中各个标准数据元之间的第一文本相似度；
将第一标准数据元集中与所述特性词之间的第一文本相似度最大的标准数据元作为第一文本匹配上的标准数据元输出，所述第一标准数据元集为标准库中与所述特性词之间的第一文本相似度大于预设相似度阈值的标准数据元组成的集；或者将所述特性词作为第一文本未匹配上的特性词输出，所述第一文本未匹配上的特性词与标准库中各个标准数据元之间的第一文本相似度均小于或等于预设相似度阈值；以及<...

【专利技术属性】
技术研发人员：戴泽林，高圣兴，朱明浩，何林强，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人