一种基于NLP技术的表名字段名智能补全方法技术

技术编号：22467628 阅读：25 留言：0更新日期：2019-11-06 11:27

本发明专利技术公开了一种基于NLP技术的表名字段名智能补全方法，包括以下步骤；S1：预处理；S2：原始拆分；S3：查字典；S4：语言识别；S5：高级拆分；S6：补全推断；S7：输出翻译。本发明专利技术通过NLP技术和双重拆分验证将原始表的表名或字段名识别匹配，输出可能性结果，方便数据处理人快速判断了解表名或字段名含义，且输出结果可用于后续原始表内数据处理，增加数据处理人的工作速度，降低数据处理难度。

An intelligent completion method of table name field name based on NLP technology

全部详细技术资料下载

【技术实现步骤摘要】
一种基于NLP技术的表名字段名智能补全方法
本专利技术涉及商务智能领域，尤其涉及一种基于NLP技术的表名字段名智能补全方法。
技术介绍
自然语言处理(NLP，NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科，分成简单匹配式、模糊匹配式和段落理解式三种类型，商务智能是一套完整的解决方案，用来将企业中现有的数据进行有效的整合，快速准确的提供报表并提出决策依据，帮助企业做出明智的业务经营决策，其中会涉及到对存储在数据仓库中的数据进行分析和识别环节。传统的做法是数据开发人员自己去根据业务场景或描述信息对数据先进行梳理识别，再进行分析，由于数据表在创建使用过程中可能由于各种原因导致表的描述或字段描述丢失或存储在其他表中，并且公司内业务往往比较繁杂，这样就给数据开发人员带来了非常庞大及复杂的梳理识别过程，可以看出，数据开发人员的大部分精力都会耗费在对业务的理解以及对数据表的理解梳理上，非常的耗费人力和财力。因此，我们根据NLP技术提出了一种基于NLP技术的表名字段名智能补全方法来解决上述问题。
技术实现思路
本专利技术的目的是为了解决现有技术中存在的缺点，而提出的一种基于NLP技术的表名字段名智能补全方法。为了实现上述目的，本专利技术采用了如下技术方案：一种基于NLP技术的表名字段名智能补全方法，包括以下步骤：S1：预处理；首先将表名或字段名中的英文或汉语拼音的大小写字母全部转换成小写字母，然后去掉数字等特殊字符，最后去掉只有一个字符的单词。S2：原始拆分；对预处理后的表名或字段名进行分割，英文单词和英文缩写根据标点符号和空格进...

【技术保护点】
1.一种基于NLP技术的表名字段名智能补全方法，其特征在于，包括以下步骤：S1：预处理；首先将表名或字段名中的英文或汉语拼音的大小写字母全部转换成小写字母，然后去掉数字等特殊字符，最后去掉只有一个字符的单词。S2：原始拆分；对预处理后的表名或字段名进行分割，英文单词和英文缩写根据标点符号和空格进行分割，汉语拼音则作为一个单词不做处理。S3：查字典；对英文查询字典，即根据英文词库中的英文单词和缩略语进行比对，判断查询的英文是否在字典中保存，若存在则取出，若不存在则继续后续步骤。S4：语言识别；对步骤3处理后的结果进行识别，判断其为英文还是汉语拼音。S5：高级拆分；对英文单词、英文缩写和汉语拼音连在一起的较长表名或字段名进行空格推断。S6：补全推断；对缺损的表名或字段名进行预测推断补全，还原表名或字段名的含义。S7：输出翻译；对预测补全后的表名或字段名进行输出整理，整理后可对英文表名或字段名进行翻译，输出为汉字形式。

【技术特征摘要】
1.一种基于NLP技术的表名字段名智能补全方法，其特征在于，包括以下步骤：S1：预处理；首先将表名或字段名中的英文或汉语拼音的大小写字母全部转换成小写字母，然后去掉数字等特殊字符，最后去掉只有一个字符的单词。S2：原始拆分；对预处理后的表名或字段名进行分割，英文单词和英文缩写根据标点符号和空格进行分割，汉语拼音则作为一个单词不做处理。S3：查字典；对英文查询字典，即根据英文词库中的英文单词和缩略语进行比对，判断查询的英文是否在字典中保存，若存在则取出，若不存在则继续后续步骤。S4：语言识别；对步骤3处理后的结果进行识别，判断其为英文还是汉语拼音。S5：高级拆分；对英文单词、英文缩写和汉语拼音连在一起的较长表名或字段名进行空格推断。S6：补全推断；对缺损的表名或字段名进行预测推断补全，还原表名或字段名的含义。S7：输出翻译；对预测补全后的表名或字段名进行输出整理，整理后可对英文表名或字段名进行翻译，输出为汉字形式。2.根据权利要求1所述的一种基于NLP技术的表名字段名智能补全方法，其特征在于：在步骤S2中，将表名或字段名的字符串进行符号分割，即通过标点符号和空格将字符串分割成多个组成字符串，然后将多个组成字符串输出到步骤S3。3.根据权利要求2所述的一种基于NLP技术的表名字段名智能补全方法，其特征在于...

【专利技术属性】
技术研发人员：徐金梦，金建良，吴林强，许琮浩，
申请(专利权)人：杭州城市大数据运营有限公司，湖州市大数据运营有限公司，杭州中云数据科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人