System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 主数据管理方法、系统和计算机存储介质技术方案_技高网

主数据管理方法、系统和计算机存储介质技术方案

技术编号:40206446 阅读:6 留言:0更新日期:2024-02-02 22:17
本申请实施例提供了一种主数据管理方法、系统和计算机存储介质。其中方法包括:获取待录入文本,所述待录入文本包括待录入字段;分别计算所述待录入字段与多个主数据模板的主数据字段间的相似度;根据所述相似度,确定所述待录入文本与各所述主数据模板间的匹配度;根据所述匹配度从所述多个主数据模板中,确定与所述待录入文本匹配的目标主数据模板,按照所述目标主数据模板对所述待录入文本进行录入。通过本申请实施例的主数据管理方法,可对待录入文本进行自动录入,显著减少待录入文本中的人工操作,提高待录入文本的录入效率,从而更好地满足大规模数据管理的需求。

【技术实现步骤摘要】

本申请实施例涉及数据管理领域,尤其涉及一种主数据管理方法、系统和计算机存储介质


技术介绍

1、主数据是企业中用于标识和描述业务实体(如客户、产品、供应商等)的关键数据,在现代企业中,主数据管理(master data management,mdm)负责确保企业数据的一致性、准确性和完整性等,从而提高数据质量、决策效率和业务灵活性。

2、但是,相关技术中的主数据管理方法主要依赖于人工操作和传统数据库技术,由于数据来源多样,数据的质量和一致性难以保障,在向数据库录入新的主数据文本时,需要大量的人工操作,造成主数据文本录入效率低下,无法满足大规模数据管理的需求。


技术实现思路

1、有鉴于此,本申请实施例提供一种主数据管理方法、系统和计算机存储介质,通过其中主数据管理方法,减少主数据文本录入中的人工操作,提高主数据文本录入效率,从而更好地满足大规模数据管理的需求。

2、根据本申请实施例的第一方面,提供了一种主数据管理方法,包括:获取待录入文本,所述待录入文本包括待录入字段;分别计算所述待录入字段与多个主数据模板的主数据字段间的相似度;根据所述相似度,确定所述待录入文本与各所述主数据模板间的匹配度;根据所述匹配度从所述多个主数据模板中,确定与所述待录入文本匹配的目标主数据模板,按照所述目标主数据模板对所述待录入文本进行录入。

3、在一种可能的实现方式中,所述根据所述相似度,确定所述待录入文本与各所述主数据模板间的匹配度,包括:对所述待录入字段进行向量表示,获得待录入字段向量;对所述主数据字段进行向量表示,获得主字段向量;根据所述待录入字段向量和所述主字段向量计算所述相似度。

4、在一种可能的实现方式中,所述对所述待录入字段进行向量表示,获得待录入字段向量,包括:对所述待录入字段进行分词,生成第一重组字段;将所述第一重组字段进行向量表示,生成第一向量;对第一向量进行时序特征提取,生成第二向量;对第二词向量进行全局特征提取,生成第三向量;对所述第三向量进行标准化处理后,输入全连接层,通过全连接层处理,生成所述待录入字段向量;所述对所述主数据字段进行向量表示,获得主字段向量包括:对所述主数据字段进行分词,生成第二重组字段;将所述第二重组字段进行向量表示,生成第四向量;对第四向量进行时序特征提取,生成第五向量;对第五词向量进行全局特征提取,生成第六向量;对所述第六向量进行标准化处理后,输入全连接层,通过全连接层处理,生成所述主字段向量。

5、在一种可能的实现方式中,所述分别计算所述待录入字段与多个主数据模板的主数据字段间的相似度,包括:通过下式计算所述待录入字段与所述主数据字段间的相似概率,并根据所述相似概率确定相似度;其中,

6、s(s1,s2)=softmax(r(s1,s2)·w)

7、式中,s(s1,s2)为待录入字段s1和主数据字段s2的相似概率计算结果,包括所述相似概率和不相似概率;w为训练参数,通过按照上式进行模型训练获得;r(s1,s2)为向量融合公式,并且,

8、

9、式中,为所述待录入字段向量;为所述主字段向量;⊙代表内积运算;α、β、γ均为训练参数,通过按照上式进行模型训练获得。

10、在一种可能的实现方式中,所述根据所述相似度,确定所述待录入文本与各所述主数据模板间的匹配度,包括:根据所述待录入字段与各个主数据模板的主数据字段的所述相似度,确定所述待录入字段与各个主数据模板的主数据字段的匹配对集合;其中,所述匹配对包括一个待录入字段和一个与所述待录入字段匹配的所述主数据字段;根据所述匹配对集合中匹配对的数量,确定所述待录入文本与各所述主数据模板间的匹配度。

11、在一种可能的实现方式中,所述根据所述匹配对集合中匹配对的数量,确定所述待录入文本与各所述主数据模板间的匹配度,包括:通过下式计算所述匹配度,

12、

13、式中,p(m,d)为所述待录入文本d与所述主数据模板m的匹配度,count(m,d)为所述匹配对集合中匹配对的数量;j代表主数据模板m中主数据字段的数量。

14、在一种可能的实现方式中,所述方法还包括:从预设字段列表中确定所述主数据字段,从预设规则列表中确定与所述主数据字段对应的字段规则;其中,属于同一所述预设字段列表的不同字段之间词义相似;根据所述主数据字段和所述字段规则生成主数据模板。

15、在一种可能的实现方式中,所述方法还包括:根据所述主数据模板对应的所述字段规则对所述待录入文本进行过滤。

16、根据本申请实施例的第二方面,提供了一种主数据管理系统,包括:相似度计算模块,用于获取待录入文本,所述待录入文本包括待录入字段;分别计算所述待录入字段与多个主数据模板的主数据字段间的相似度;主数据维护单元,用于根据所述相似度,确定所述待录入文本与各所述主数据模板间的匹配度;根据所述匹配度确定与所述待录入文本匹配的主数据模板,按照所述匹配的主数据模板对所述待录入文本进行录入。

17、根据本申请实施例的第三方面,提供了一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如前述任一实施例所述的主数据管理方法。

18、通过本申请实施例,获取待录入文本后,可自动计算待录入文本中待录入字段与主数据模板的主数据字段的相似度,根据各待录入字段与各主数据字段的相似度,计算待录入文本整体和主数据模板整体的匹配度,匹配度的计算过程由部分到整体,逻辑清晰且无需人工干预,便于计算机等设备的自动实现。得到待录入文本整体和各主数据模板整体的匹配度后,便可调用排序程序进行排序后,自动将匹配度最高的主数据模板与待录入文本匹配,得到与待录入文本匹配的目标主数据模板,之后便按照目标主数据模板对待录入文本进行自动录入。由上可见,通过本申请实施例的主数据管理方法,可对待录入文本进行自动录入,显著减少待录入文本中的人工操作,提高待录入文本的录入效率,从而更好地满足大规模数据管理的需求。

本文档来自技高网...

【技术保护点】

1.一种主数据管理方法,其特征在于,包括:

2.根据权利要求1所述的主数据管理方法,其特征在于,所述根据所述相似度,确定所述待录入文本与各所述主数据模板间的匹配度,包括:

3.根据权利要求2所述的主数据管理方法,其特征在于,所述对所述待录入字段进行向量表示,获得待录入字段向量,包括:

4.根据权利要求2或3所述的主数据管理方法,其特征在于,所述分别计算所述待录入字段与多个主数据模板的主数据字段间的相似度,包括:通过下式计算所述待录入字段与所述主数据字段间的相似概率,并根据所述相似概率确定相似度;其中,

5.根据权利要求4所述的主数据管理方法,其特征在于,所述根据所述相似度,确定所述待录入文本与各所述主数据模板间的匹配度,包括:

6.根据权利要求5所述的主数据管理方法,其特征在于,所述根据所述匹配对集合中匹配对的数量,确定所述待录入文本与各所述主数据模板间的匹配度,包括:通过下式计算所述匹配度,

7.根据权利要求1所述的主数据管理方法,其特征在于,所述方法还包括:

8.根据权利要求7所述的主数据管理方法,其特征在于,所述方法还包括:根据所述主数据模板对应的所述字段规则对所述待录入文本进行过滤。

9.一种主数据管理系统,其特征在于,包括:

10.一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-8中任一项所述的主数据管理方法。

...

【技术特征摘要】

1.一种主数据管理方法,其特征在于,包括:

2.根据权利要求1所述的主数据管理方法,其特征在于,所述根据所述相似度,确定所述待录入文本与各所述主数据模板间的匹配度,包括:

3.根据权利要求2所述的主数据管理方法,其特征在于,所述对所述待录入字段进行向量表示,获得待录入字段向量,包括:

4.根据权利要求2或3所述的主数据管理方法,其特征在于,所述分别计算所述待录入字段与多个主数据模板的主数据字段间的相似度,包括:通过下式计算所述待录入字段与所述主数据字段间的相似概率,并根据所述相似概率确定相似度;其中,

5.根据权利要求4所述的主数据管理方法,其特征在于,所述根据所述相似度,确定所述待录入文本...

【专利技术属性】
技术研发人员:梅俊辉王志刚张平王煜
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1