System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据标准生成方法、装置、设备及介质制造方法及图纸_技高网

数据标准生成方法、装置、设备及介质制造方法及图纸

技术编号:40022764 阅读:3 留言:0更新日期:2024-01-16 17:01
本申请提供一种数据标准生成方法、装置、设备及介质,该方法通过双向分词算法,对待处理数据文本进行分词处理,提取待处理数据文本中的标准词,进而通过文本匹配算法,从词根库中查询与各标准词相匹配的标准词根,避免待处理数据文本中冗余文本的干扰,提高对待处理数据文本的文本识别精度和文本标准化准确性;通过数据标准生成规则,对待处理数据文本对应的各标准词根进行格式转化,生成待处理数据文本对应的数据标准,使得不同数据来源的待处理数据文本对应的数据标准格式一致,提高数据标准的一致性和通用性,从而提高数据模型整合的数据标准可靠性。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种数据标准生成方法、装置、设备及介质


技术介绍

1、在金融领域中,基金公司大量使用了来源于不同供应商的应用系统,但是,不同供应商提供的应用系统的数据建模标准不一致,在这种情况下,构建数据中心时,必须要对各应用系统的数据模型进行整合,整合数据模型必须有规范及标准。

2、目前,在数据模型整合时,一般采用的方式是以某一应用系统为参考,其它应用系统向该参考应用系统的建模标准上对齐进行数据模型整合。但是,现有模型整合方式,首先,参考应用系统的数据标准范围不全,不能覆盖整个数据中心对于数据模型的需要;其次,参考应用系统自身的数据模型可能存在标准不统一、数据有岐义的问题;最后,缺少参考应用系统的基础词根,整合时遇到新词根时无法对新词根进行统一整合。

3、因此,如何解决目前数据模型整合的数据标准可靠性低下成为亟待解决的技术问题。


技术实现思路

1、本申请提供了一种数据标准生成方法、装置、设备及存储介质,旨在提高数据模型整合的数据标准可靠性。

2、第一方面,本申请提供一种数据标准生成方法,所述方法包括:

3、获取待处理数据文本;

4、基于双向分词算法,对所述待处理数据文本进行分词处理,获得至少一个标准词;

5、基于文本匹配算法,从预设的词根库中查询各所述标准词对应的标准词根;

6、基于数据标准生成规则,对各所述标准词根进行格式转化,获得所述待处理数据文本对应的数据标准。

7、第二方面,本申请还提供一种数据标准生成装置,所述数据标准生成装置包括:

8、文本获取模块,用于获取待处理数据文本;

9、文本分词模块,用于基于双向分词算法,对所述待处理数据文本进行分词处理,获得至少一个标准词;

10、文本匹配模块,用于基于文本匹配算法,从预设的词根库中查询各所述标准词对应的标准词根;

11、数据标准生成模块,用于基于数据标准生成规则,对各所述标准词根进行格式转化,获得所述待处理数据文本对应的数据标准。

12、第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的数据标准生成方法的步骤。

13、第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的数据标准生成方法的步骤。

14、本申请提供一种数据标准生成方法、装置、设备及存储介质,本申请方法包括获取待处理数据文本;基于双向分词算法,对所述待处理数据文本进行分词处理,获得至少一个标准词;基于文本匹配算法,从预设的词根库中查询各所述标准词对应的标准词根;基于数据标准生成规则,对各所述标准词根进行格式转化,获得所述待处理数据文本对应的数据标准。通过上述方式,本申请通过双向分词算法,对待处理数据文本进行分词处理,提取待处理数据文本中的标准词,进而通过文本匹配算法,从词根库中查询与各标准词相匹配的标准词根,避免待处理数据文本中冗余文本的干扰,提高对待处理数据文本的文本识别精度和文本标准化准确性;通过数据标准生成规则,对待处理数据文本对应的各标准词根进行格式转化,生成待处理数据文本对应的数据标准,使得不同数据来源的待处理数据文本对应的数据标准格式一致,提高数据标准的一致性和通用性,从而提高数据模型整合的数据标准可靠性。

本文档来自技高网...

【技术保护点】

1.一种数据标准生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的数据标准生成方法,其特征在于,所述获取待处理数据文本之前还包括:

3.根据权利要求2所述的数据标准生成方法,其特征在于,所述基于词根处理算法,对所述源文本数据进行文本处理,生成至少一个标准词根,包括:

4.根据权利要求2所述的数据标准生成方法,其特征在于,所述基于词根处理算法,对所述源文本数据进行文本处理,生成至少一个标准词根之后,还包括:

5.根据权利要求4所述的数据标准生成方法,其特征在于,所述基于数据标准生成规则,对各所述标准词根进行格式转化,获得所述待处理数据文本对应的数据标准,包括:

6.根据权利要求5所述的数据标准生成方法,其特征在于,所述数据标准包括第二语言数据标准;

7.根据权利要求1-6中任一项所述的数据标准生成方法,其特征在于,所述数据标准生成规则包括表名创建规则、字段名创建规则以及特殊化处理算法;

8.一种数据标准生成装置,其特征在于,所述数据标准生成装置包括:

9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的数据标准生成方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的数据标准生成方法的步骤。

...

【技术特征摘要】

1.一种数据标准生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的数据标准生成方法,其特征在于,所述获取待处理数据文本之前还包括:

3.根据权利要求2所述的数据标准生成方法,其特征在于,所述基于词根处理算法,对所述源文本数据进行文本处理,生成至少一个标准词根,包括:

4.根据权利要求2所述的数据标准生成方法,其特征在于,所述基于词根处理算法,对所述源文本数据进行文本处理,生成至少一个标准词根之后,还包括:

5.根据权利要求4所述的数据标准生成方法,其特征在于,所述基于数据标准生成规则,对各所述标准词根进行格式转化,获得所述待处理数据文本对应的数据标准,包括:

6.根据权利要求5所述的数据标准生成方法,其特征在于...

【专利技术属性】
技术研发人员:任卫军刘汉卿倪爽
申请(专利权)人:深圳市赢和信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1