一种基于NLP技术的表名字段名智能补全方法技术

技术编号:22467628 阅读:25 留言:0更新日期:2019-11-06 11:27
本发明专利技术公开了一种基于NLP技术的表名字段名智能补全方法,包括以下步骤;S1:预处理;S2:原始拆分;S3:查字典;S4:语言识别;S5:高级拆分;S6:补全推断;S7:输出翻译。本发明专利技术通过NLP技术和双重拆分验证将原始表的表名或字段名识别匹配,输出可能性结果,方便数据处理人快速判断了解表名或字段名含义,且输出结果可用于后续原始表内数据处理,增加数据处理人的工作速度,降低数据处理难度。

An intelligent completion method of table name field name based on NLP technology

【技术实现步骤摘要】
一种基于NLP技术的表名字段名智能补全方法
本专利技术涉及商务智能领域,尤其涉及一种基于NLP技术的表名字段名智能补全方法。
技术介绍
自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科,分成简单匹配式、模糊匹配式和段落理解式三种类型,商务智能是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策,其中会涉及到对存储在数据仓库中的数据进行分析和识别环节。传统的做法是数据开发人员自己去根据业务场景或描述信息对数据先进行梳理识别,再进行分析,由于数据表在创建使用过程中可能由于各种原因导致表的描述或字段描述丢失或存储在其他表中,并且公司内业务往往比较繁杂,这样就给数据开发人员带来了非常庞大及复杂的梳理识别过程,可以看出,数据开发人员的大部分精力都会耗费在对业务的理解以及对数据表的理解梳理上,非常的耗费人力和财力。因此,我们根据NLP技术提出了一种基于NLP技术的表名字段名智能补全方法来解决上述问题。
技术实现思路
本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种基于NLP技术的表名字段名智能补全方法。为了实现上述目的,本专利技术采用了如下技术方案:一种基于NLP技术的表名字段名智能补全方法,包括以下步骤:S1:预处理;首先将表名或字段名中的英文或汉语拼音的大小写字母全部转换成小写字母,然后去掉数字等特殊字符,最后去掉只有一个字符的单词。S2:原始拆分;对预处理后的表名或字段名进行分割,英文单词和英文缩写根据标点符号和空格进行分割,汉语拼音则作为一个单词不做处理。S3:查字典;对英文查询字典,即根据英文词库中的英文单词和缩略语进行比对,判断查询的英文是否在字典中保存,若存在则取出,若不存在则继续后续步骤。S4:语言识别;对步骤3处理后的结果进行识别,判断其为英文还是汉语拼音。S5:高级拆分;对英文单词、英文缩写和汉语拼音连在一起的较长表名或字段名进行空格推断。S6:补全推断;对缺损的表名或字段名进行预测推断补全,还原表名或字段名的含义。S7:输出翻译;对预测补全后的表名或字段名进行输出整理,整理后可对英文表名或字段名进行翻译,输出为汉字形式。优选地,在步骤S2中,将表名或字段名的字符串进行符号分割,即通过标点符号和空格将字符串分割成多个组成字符串,然后将多个组成字符串输出到步骤S3。优选地,在步骤S3中,将步骤S2中的多个字符串与所编辑存储的字典内的单词和缩略语进行逐个比较,若组成字符串的英文字母组成与字典内的其中一个英文单词或英文缩略语的英文字母组成完全一致,则此多个组成字符串的其中一个单词确定,将所有组成字符串逐一进行比对,查字典确定的单词输出到步骤S7,未确定部分的组成字符串进入步骤S4。优选地,在步骤S4中,通过汉语拼音声母韵母的书写规范来判断未确定部分的组成字符串是否含有汉语拼音,如果符合汉语拼音书写规范,输出为一个汉语拼音,若不符合汉语拼音书写规范则不含有拼音,全为英文单词或英文缩略语。优选地,在步骤S5中,英文单词、英文缩略语和汉语拼音连在一起的组成字符串,将其分割为多个单独的字符串,然后对多个单独的字符串进行顺序排列组合,形成多种组合结果,将多种组合结果放入步骤S4中继续判断输出,将组合后判断出的结果输出到步骤S6。优选地,在步骤S6中,对步骤S5输出的多种组合结果进行补全推断,即根据词库将不完整的英文单词、英文缩略语进行补充,输出一种或多种结果到步骤S7中。本专利技术具有以下有益效果:1、通过本方法将原始表的表名或字段名信息梳理成一种或多种组合可能性的结果,方便数据处理人能够快速判断了解原始表的表名或字段名所代表的含义,增加数据处理人对原始表了解的速度。2、本方法输出的一种或多种可能性结果可用于统计、识别、预测等原始表内数据,方便数据处理人展开后续数据处理任务,增加数据处理人的工作效率。综上所述,本专利技术通过NLP技术和双重拆分验证将原始表的表名或字段名识别匹配,输出可能性结果,方便数据处理人快速判断了解表名或字段名含义,且输出结果可用于后续原始表内数据处理,增加数据处理人的工作速度,降低数据处理难度。附图说明图1为本专利技术提出的一种基于NLP技术的表名字段名智能补全方法的结构示意图;图2为实施例一的图例;图3为实施例二的图例;图4为实施例三的图例。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。实施例一:参照图1和图2,一种基于NLP技术的表名字段名智能补全方法,包括以下步骤:S1:预处理;首先将CheLiangXinXi或CLXX中的英文或汉语拼音的大小写字母全部转换成小写字母,即换写成cheliangxinxi或clxx,然后去掉数字等特殊字符,最后去掉只有一个字符的单词,即最终形成:cheliangxinxi或clxx。S2:原始拆分;对预处理后的cheliangxinxi或clxx进行分割,英文单词和英文缩写根据标点符号和空格进行分割,汉语拼音则作为一个单词不做处理,将cheliangxinxi或clxx中的字符串进行符号分割,即通过标点符号和空格将字符串分割成多个组成字符串,然后将多个组成字符串输出到步骤S3,因不存在标点符号,则结果仍为cheliangxinxi或clxx。S3:查字典;对英文查询字典,即根据英文词库中的英文单词和缩略语进行比对,判断查询的英文是否在字典中保存,若存在则取出,若不存在则继续后续步骤,即将步骤S2中的cheliangxinxi或clxx与所编辑存储的字典内的单词和缩略语进行逐个比较,则发现字典词库内不存在与cheliangxinxi或clxx完全相同的单词,则不作处理,然后进入下一步。S4:语言识别;对cheliangxinxi或clxx进行识别,判断其为英文还是汉语拼音,通过汉语拼音声母韵母的书写规范以及使用大量语料训练的统计语言模型来判断cheliangxinxi或clxx为汉语拼音还是英文,通过检测,cheliangxinxi或clxx符合汉语拼音或简拼的书写规范,均为汉语拼音,则进行下一步。S5:高级拆分;对英文单词、英文缩写和汉语拼音连在一起的较长表名或字段名进行空格推断,英文单词、英文缩略语和汉语拼音连在一起的组成字符串,将其分割为多个单独的字符串,然后对多个单独的字符串进行顺序排列组合,形成多种组合结果,结果为cheliangxinxi或clxx。S6:补全推断;对缺损的表名或字段名进行预测推断补全,还原表名或字段名的含义,根据汉语拼音书写规范显示cheliangxinxi书写正确,clxx为正确的汉语简拼,因此推断为“车辆信息”。S7:输出翻译;将补全步骤S6中推断输出的结果输出,用户根据自身需要选择中文拼音翻译推断结果,则输出结果为“车辆信息”。实施例二:参照图1和图3,一种基于NLP技术的表名字段名智能补全方法,包括以下步骤:S1:预处理;首先将Drivinglicense中的英文或汉语拼音的大小写字母全部转换成小写字母,即换写成drivinglicense然后去掉数字等特殊字符,最后去本文档来自技高网...

【技术保护点】
1.一种基于NLP技术的表名字段名智能补全方法,其特征在于,包括以下步骤:S1:预处理;首先将表名或字段名中的英文或汉语拼音的大小写字母全部转换成小写字母,然后去掉数字等特殊字符,最后去掉只有一个字符的单词。S2:原始拆分;对预处理后的表名或字段名进行分割,英文单词和英文缩写根据标点符号和空格进行分割,汉语拼音则作为一个单词不做处理。S3:查字典;对英文查询字典,即根据英文词库中的英文单词和缩略语进行比对,判断查询的英文是否在字典中保存,若存在则取出,若不存在则继续后续步骤。S4:语言识别;对步骤3处理后的结果进行识别,判断其为英文还是汉语拼音。S5:高级拆分;对英文单词、英文缩写和汉语拼音连在一起的较长表名或字段名进行空格推断。S6:补全推断;对缺损的表名或字段名进行预测推断补全,还原表名或字段名的含义。S7:输出翻译;对预测补全后的表名或字段名进行输出整理,整理后可对英文表名或字段名进行翻译,输出为汉字形式。

【技术特征摘要】
1.一种基于NLP技术的表名字段名智能补全方法,其特征在于,包括以下步骤:S1:预处理;首先将表名或字段名中的英文或汉语拼音的大小写字母全部转换成小写字母,然后去掉数字等特殊字符,最后去掉只有一个字符的单词。S2:原始拆分;对预处理后的表名或字段名进行分割,英文单词和英文缩写根据标点符号和空格进行分割,汉语拼音则作为一个单词不做处理。S3:查字典;对英文查询字典,即根据英文词库中的英文单词和缩略语进行比对,判断查询的英文是否在字典中保存,若存在则取出,若不存在则继续后续步骤。S4:语言识别;对步骤3处理后的结果进行识别,判断其为英文还是汉语拼音。S5:高级拆分;对英文单词、英文缩写和汉语拼音连在一起的较长表名或字段名进行空格推断。S6:补全推断;对缺损的表名或字段名进行预测推断补全,还原表名或字段名的含义。S7:输出翻译;对预测补全后的表名或字段名进行输出整理,整理后可对英文表名或字段名进行翻译,输出为汉字形式。2.根据权利要求1所述的一种基于NLP技术的表名字段名智能补全方法,其特征在于:在步骤S2中,将表名或字段名的字符串进行符号分割,即通过标点符号和空格将字符串分割成多个组成字符串,然后将多个组成字符串输出到步骤S3。3.根据权利要求2所述的一种基于NLP技术的表名字段名智能补全方法,其特征在于...

【专利技术属性】
技术研发人员:徐金梦金建良吴林强许琮浩
申请(专利权)人:杭州城市大数据运营有限公司湖州市大数据运营有限公司杭州中云数据科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1