一种分类分级清单智能打标方法技术

技术编号：31026863 阅读：13 留言：0更新日期：2021-11-30 03:29

本发明专利技术公开了一种分类分级清单智能打标方法，涉及通信技术领域，解决了目前在大数据量级下，数据清单打标耗时费力，同时打标质量不高的技术问题。本技术方案通过不同数据库读取表和字段信息，统一文本行格式后进行预处理和中英文分词和英文翻译操作，基于文本行的内容多样性和复杂性，先做文本粗分类，得到总体结果尚可的打过标的文本行，再基于fastText模型训练和短文本分类。本发明专利技术短文本分类中兼具高速和高质量的模型，对文本行进行训练和测试得到文本行的合理的打标结果，智能打标，省时省力。省力。省力。

全部详细技术资料下载

【技术实现步骤摘要】
一种分类分级清单智能打标方法

[0001]本专利技术涉及通信
，具体涉及一种分类分级清单智能打标方法。

技术介绍

[0002]短文本分类在舆情分类，新闻分类等场景中已有广泛应用；而在数据安全领域中，数据清单的分类分级在实施中遇到巨大瓶颈；数据清单通常由存储模式各异数据库，命名形式不同的表和字段信息组成，数量级在几万至几百万不等；面对如此量级的表和字段信息，对其进行打标分类成为阻碍，对打标人员的数量和专业程度提出了挑战，同时这将耗费数天至数月时间；与此同时，打标的质量也会成为重要问题。

技术实现思路

[0003]本专利技术的目的是提供一种分类分级清单智能打标方法，通过短文本分词、提取短文本的关键词、得到向量化短文本、短文本聚类、短文本分类进行分类分级，智能合理打标，省时省力，提升打标质量。
[0004]为了实现上述目的，本专利技术提供如下技术方案：一种分类分级清单智能打标方法，步骤如下：
[0005]S1.读取不同数据库的表和字段信息，处理为格式统一的文本行，其中，文本行的内容包括字段名称，字段注释，表名称和表注释；同时读取所有标签；对文本行作预处理，包括去停用词和标点符号；再对文本行作中、英文分词，对标签作中文分词；其中，分词后的英文通过英译中的词库翻译为对应的中文；此时，得到分词的文本行，记TEXT，根据文本行的内容分为字段信息和表信息，分别记TEXT_FIELD和TEXT_TABLE；分词的标签根据是否是具体字段分为标签和背景标签，分别记LABEL和LABEL_BG；并假设标...

【技术保护点】

【技术特征摘要】
1.一种分类分级清单智能打标方法，其特征在于，S1.读取不同数据库的表和字段信息，处理为格式统一的文本行，其中，文本行的内容包括字段名称，字段注释，表名称和表注释；同时读取所有标签；对文本行作预处理，包括去停用词和标点符号；再对文本行作中、英文分词，对标签作中文分词；其中，分词后的英文通过英译中的词库翻译为对应的中文；此时，得到分词的文本行，记TEXT，根据文本行的内容分为字段信息和表信息，分别记TEXT_FIELD和TEXT_TABLE；分词的标签根据是否是具体字段分为标签和背景标签，分别记LABEL和LABEL_BG；并假设标签的数量为CLASS_NUM；至此，文本行和标签均已分词；S2.文本
‑
标签匹配；遍历TEXT，对每条TEXT的TEXT_FIELD，遍历LABEL，记录文本字段信息和标签匹配的词的个数，得到长度为CLASS_NUM的列表；记列表中的最大值为MATCH_MAX；根据MATCH_MAX是否唯一，分为以下2种情形：S2.1.MATCH_MAX唯一，TEXT粗分类的标签为MATCH_MAX对应的标签；S2.2.MATCH_MAX不唯一，获取匹配数为MATCH_MAX的所有标签，记MATCH_MAX_LABEL，标签的数量记MATCH_MAX_LABEL_NUM，对TEXT的TEXT_TABLE，遍历MATCH_MAX_LABEL中的TEXT_TABLE，记录文本表信息和背景标签匹配的词的个数，得到长度为MATCH_MAX_LABEL_NUM的列表；记列表中的最大值为MATCH_TABLE_MAX；根据MATCH_TABLE_MAX...

【专利技术属性】
技术研发人员：卢红波，张林成，
申请(专利权)人：全知科技杭州有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人