利用自然语言处理技术定义数据元素的方法以及装置制造方法及图纸

技术编号:15792062 阅读:333 留言:0更新日期:2017-07-09 23:11
本发明专利技术公开了一种利用自然语言处理技术定义数据元素的方法以及装置。其中方法包括:基于信息系统中数据的基本信息,定义目标数据元素的表示信息,并获取多个数据表的字段信息;基于预先配置的语法规则,根据表示信息从多个数据表的字段信息中提取对象词和特性词;基于对象词、特性词和表示信息,对多个数据表的字段进行相似度计算;根据相似度计算结果,对字段信息进行聚类分析以得到多个聚类类别;根据每一个聚类类别中的特征信息定义类别名称,并将类别名称作为目标数据元素的名称,并将聚类后的数据表字段的字符类型定义为目标数据元素的数据类型。该方法实现了不依赖于事先定义的标准数据元素,减少了人工配置方面的工作量,提升使用体验。

【技术实现步骤摘要】
利用自然语言处理技术定义数据元素的方法以及装置
本专利技术涉及数据处理
,特别涉及一种利用自然语言处理技术定义数据元素的方法以及装置。
技术介绍
随着信息化水平的不断提升,政府、企业等单位都建立了众多的信息系统来支撑各种业务的开展,但是由于系统与系统之间业务口径的不一致、表达方式存在差异等影响着各个业务系统内部数据之间的交互。为了能够更好地保证各个业务系统内部数据之间的交互,在相关技术中,提出了通过定义统一的标准数据元素信息来实现数据间的正常交互,具体可包括以下几种方式:其一,通过手工定义标准数据元素以及数据元素的各个要素;其二,基于标准数据元素,计算表字段与数据元素的相似度,形成字段与数据元素之间的映射关系。虽然通过上述几种方式可以解决数据之间不能正常交互的问题,但过于依赖于事先定义好的标准数据元素,且对数据元素的完整性要求比较高,此外存在较大的人工配置工作量,比较耗时耗力。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种利用自然语言处理技术定义数据元素的方法,该方法实现了不依赖于事先定义的标准数据元素,且减少了人工配置方面的工作量,提升了使用体验。本专利技术的第二个目的在于提出一种利用自然语言处理技术定义数据元素的装置。为达上述目的,根据本专利技术第一方面实施例提出了利用自然语言处理技术定义数据元素的方法,该方法包括以下步骤:包括以下步骤:基于信息系统中数据的基本信息,定义目标数据元素的表示信息,并获取所述信息系统中多个数据表的字段信息;基于预先配置的语法规则,根据所述表示信息从所述多个数据表的字段信息中提取对象词和特性词;基于所述对象词、特性词和表示信息,对所述多个数据表的字段之间进行相似度计算;根据所述相似度计算的结果,对所述多个数据表的字段信息进行聚类分析以得到多个聚类类别;根据每一个聚类类别中的特征信息定义所述类别的名称,并将所述类别的名称作为所述目标数据元素的名称,并将聚类后的数据表字段的字符类型定义为所述目标数据元素的数据类型。本专利技术实施例的利用自然语言处理技术定义数据元素的方法,首先,基于信息系统中数据的基本信息定义出目标数据元素的表示信息,并且获取多个数据表字段信息;其次,基于预先配置的语法规则,根据表示信息从多个数据表字段信息中提取出对象词和特性词;再次,基于对象词、特性词和表示信息对多个数据表的字段信息进行聚类分析以得到多个聚类类别,进而根据每一个聚类类别中的特征信息定义类别的名称,并将类别的名称作为目标数据元素的名称,以及将聚类后的数据表字段的字符类型定义为目标数据元素的数据类型,从而使得系统间的数据在交互时,不必过于依赖事先定义的标准数据元素,而是自动利用自然语言处理、数据挖掘等相关算法一次性完成对数据元素、数据元素的要素的定义,同时也能减少人工配置的工作量,提升了使用体验。本专利技术第二方面实施例提供了一种利用自然语言处理技术定义数据元素的装置,该装置包括:预处理模块,用于基于信息系统中数据的基本信息,定义目标数据元素的表示信息,并获取所述信息系统中多个数据表的字段信息;提取模块,用于基于预先配置的语法规则,根据所述表示信息从所述多个数据表的字段信息中提取对象词和特性词;相似度计算模块,用于基于所述对象词、特性词和表示信息,对所述多个数据表的字段之间进行相似度计算;聚类模块,用于根据所述相似度计算的结果,对所述多个数据表的字段信息进行聚类分析以得到多个聚类类别;定义模块,用于根据每一个聚类类别中的特征信息定义所述类别的名称,并将所述类别的名称作为所述目标数据元素的名称,并将聚类后的数据表字段的字符类型定义为所述目标数据元素的数据类型。本专利技术实施例的利用自然语言处理技术定义数据元素的装置,首先,基于信息系统中数据的基本信息定义出目标数据元素的表示信息,并且获取多个数据表字段信息;其次,基于预先配置的语法规则,根据表示信息从多个数据表字段信息中提取出对象词和特性词;再次,基于对象词、特性词和表示信息对多个数据表的字段信息进行聚类分析以得到多个聚类类别,进而根据每一个聚类类别中的特征信息定义类别的名称,并将类别的名称作为目标数据元素的名称,以及将聚类后的数据表字段的字符类型定义为目标数据元素的数据类型,从而使得系统间的数据在交互时,不必过于依赖事先定义的标准数据元素,而是自动利用自然语言处理、数据挖掘等相关算法一次性完成对数据元素、数据元素的要素的定义,同时也能减少人工配置的工作量,提升了使用体验。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术的一个实施例的利用自然语言处理技术定义数据元素的方法的流程图;图2为本专利技术的另一个实施例的利用自然语言处理技术定义数据元素的方法的流程图;图3为本专利技术实施例中对字段信息进行分析的具体实现过程的示意图;图4为本专利技术的一个具体实施例的利用自然语言处理技术定义数据元素的方法的流程图;图5为本专利技术的一个实施例的利用自然语言处理技术定义数据元素的装置的结构示意图;图6为本专利技术的另一个实施例的利用自然语言处理技术定义数据元素的装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。可以理解,数据元素(Dataelement)又称数据类型,是在特定的语义环境中被认为是不可再分的最小数据单元。一个标准的数据元素有以下几个要素:中文名称、中文拼音、表示符、对象词、特性词、表示词、数据类型、值域等。由于一个数据元素在不同应用环境下可以有多个同一名称,因此,需要定义出一个统一的标准数据元素结构。然而,在现有的数据元素定义中,通常会存在过于依赖于事先定义好的标准数据元素,且对数据元素的完整性要求比较高,此外存在较大的人工配置工作量等问题。因此,为了解决上述问题,本专利技术提出了一种利用自然语言处理技术定义数据元素的方法,该方法从数据元素定义的角度,分析和研究数据资源整合中不同数据表字段之间的关系,并从识别不同应用环境中具有相同语义的数据表字段信息,进而定义出统一的数据元素结构,使得在数据整合方面提供了借鉴和指导。具体地,下面参考附图1描述本专利技术第一方面实施例提出的一种利用自然语言处理技术定义数据元素的方法。图1为本专利技术一个实施例的利用自然语言处理技术定义数据元素的方法的流程图。如图1所示,本专利技术实施例的利用自然语言处理技术定义数据元素的方法,包括以下几个步骤:S101,基于信息系统中数据的基本信息,定义目标数据元素的表示信息,并获取信息系统中多个数据表的字段信息。其中,在本实施例中,信息系统中存储数据的基本信息,至少可包括:数据的主题、内容、格式标准和表达方式等信息。也就是说,可对信息系统进行数据信息调研,了解信息系统中数据的主题、内容、格式标准和表达方式等基本信息,然后,可根据信息系统中存储的数据基本信息定义出目标数据元素的表示信息,以及获取信息本文档来自技高网...
利用自然语言处理技术定义数据元素的方法以及装置

【技术保护点】
一种利用自然语言处理技术定义数据元素的方法,其特征在于,包括以下步骤:基于信息系统中数据的基本信息,定义目标数据元素的表示信息,并获取所述信息系统中多个数据表的字段信息;基于预先配置的语法规则,根据所述表示信息从所述多个数据表的字段信息中提取对象词和特性词;基于所述对象词、特性词和表示信息,对所述多个数据表的字段之间进行相似度计算;根据所述相似度计算的结果,对所述多个数据表的字段信息进行聚类分析以得到多个聚类类别;根据每一个聚类类别中的特征信息定义所述类别的名称,并将所述类别的名称作为所述目标数据元素的名称,并将聚类后的数据表字段的字符类型定义为所述目标数据元素的数据类型。

【技术特征摘要】
1.一种利用自然语言处理技术定义数据元素的方法,其特征在于,包括以下步骤:基于信息系统中数据的基本信息,定义目标数据元素的表示信息,并获取所述信息系统中多个数据表的字段信息;基于预先配置的语法规则,根据所述表示信息从所述多个数据表的字段信息中提取对象词和特性词;基于所述对象词、特性词和表示信息,对所述多个数据表的字段之间进行相似度计算;根据所述相似度计算的结果,对所述多个数据表的字段信息进行聚类分析以得到多个聚类类别;根据每一个聚类类别中的特征信息定义所述类别的名称,并将所述类别的名称作为所述目标数据元素的名称,并将聚类后的数据表字段的字符类型定义为所述目标数据元素的数据类型。2.如权利要求1所述的方法,其特征在于,所述基于预先配置的语法规则,根据所述表示信息从所述多个数据表的字段信息中提取对象词和特性词,包括:对所述表示信息进行语义扩展以生成表示的特征词库;对所述多个数据表的字段信息进行表示信息的归类,形成所述多个数据表的字段与所述目标数据元素中表示的映射关系;根据所述映射关系以及所述表示的特征词库,从所述多个数据表的字段信息中剔除表示特征词;对剔除表示特征词之后的多个数据表的字段信息进行语义依存分析,以提取所述剔除表示特征词之后的多个数据表的字段信息中各个词的语法关系;根据所述语法规则和所述语法关系生成所述多个数据表的字段信息的对象词和特性词。3.如权利要求2所述的方法,其特征在于,在根据所述语法规则和所述语法关系生成所述多个数据表的字段信息的对象词和特性词之后,所述方法还包括:对生成的结果信息建立反向自学习机制;基于所述反向自学习机制,将所述结果信息作为训练信息对所述对象词和特性词进行二次修正;其中,基于所述对象词、特性词和表示信息,对所述多个数据表的字段之间进行相似度计算,包括:基于二次修正后的所述对象词、特性词和所述表示信息,对所述多个数据表的字段之间进行相似度计算。4.如权利要求1所述的方法,其特征在于,在将所述类别的名称作为所述目标数据元素的名称之后,所述方法还包括:基于分词器对所述目标数据元素的名称进行拼音的转化,并截取所述拼音的首字母组合成所述目标数据元素的标识符。5.如权利要求1至4中任一项所述的方法,其特征在于,所述数据的基本信息至少包括数据的主题、内容、格式标准和表达方式。6.一种利用自然语言处理...

【专利技术属性】
技术研发人员:徐雄伟
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1