一种用于核电厂智能函件分发的方法和应用系统技术方案

技术编号：40028233 阅读：42 留言：0更新日期：2024-01-16 17:49

本发明专利技术提供了一种用于核电厂智能函件分发的方法，包括：数据预处理，使用关键句前置、冗余信息处理、函件数据扩充等方式对不同部门函件数据进行数据扩充以及数据裁剪，得到多部门函件分发数据集；采用语义预训练模型对文本数据进行处理，得出该文本的向量矩阵；将向量矩阵接入线性层作为文本分类器，得出多标签文本分类模型；对函件文件进行OCR识别得到文本数据，通过多标签文本分类模型预测文本数据所关联部门；调用模型训练接口对多标签文本分类模型进行重训练，避免新格式文档出现对原多标签文本分类模型的影响。本发明专利技术针对函件分发问题，通过深度学习模型对文本进行分析，得到某一函件的关联部门，从而实现函件自动分发。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及核电厂智能函件分发，尤其涉及一种用于核电厂智能函件分发的方法和应用系统。

技术介绍

1、伴随着信息的爆炸式增长，人工标注数据已经变得耗时、质量低下，且受到标注人主观意识的影响。因此，利用机器自动化的实现对文本的标注变得具有现实意义，将重复且枯燥的文本标注任务交由计算机进行处理能够有效克服以上问题，同时所标注的数据具有一致性、高质量等特点。文本分类即是用计算机对文本按照一定的分类体系或标注进行自动分类标记。伴随着统计学习方法的发展，特别是90年代后互联网在线文本数量增长和机器学习学科的兴起，逐渐形成了一套解决大规模文本分类问题的经典做法，即特征工程与浅层分类模型结合。又分为传统机器学习方法和深度学习文本分类方法。

2、文本信息分类是自然语言处理领域中一个非常经典的问题，情感分析、意图识别、新闻分类、问答系统等场景获得广泛应用。

技术实现思路

1、本专利技术的目的在于提供一种用于核电厂智能函件分发的方法和应用系统，解决了依赖人工经验对函件进行科室部门分发，效率低下且无...

【技术保护点】

1.一种用于核电厂智能函件分发的方法，其特征在于，包括：

2.根据权利要求1所述的用于核电厂智能函件分发的方法，其特征在于，步骤1包括：

3.根据权利要求2所述的用于核电厂智能函件分发的方法，其特征在于，步骤1.3中，将人工验证为无用词汇的高频词加入停用词表。

4.根据权利要求2所述的用于核电厂智能函件分发的方法，其特征在于，步骤1.3中，对文本数据进行去停用词处理。

5.根据权利要求1所述的用于核电厂智能函件分发的方法，其特征在于，步骤2采用paddlenlp自然语言处理核心开发库语义预训练模型ERNIE 3.0对文本数据进行处理，得出该...

【技术特征摘要】

1.一种用于核电厂智能函件分发的方法，其特征在于，包括：

2.根据权利要求1所述的用于核电厂智能函件分发的方法，其特征在于，步骤1包括：

3.根据权利要求2所述的用于核电厂智能函件分发的方法，其特征在于，步骤1.3中，将人工验证为无用词汇的高频词加入停用词表。

4.根据权利要求2所述的用于核电厂智能函件分发的方法，其特征在于，步骤1.3中，对文本数据进行去停用词处理。

5.根据权利要求1所述的用于核电厂智能函件分发的方法，其特征在于，步骤2采用paddlenlp自然语言处理核心开发库语义预训练模型ernie 3.0对文本数据进行处理，得出该文本的向量矩阵。

6.根据权利要求1所述的用于核电厂智能函件分发的方法，其特征在于，步骤3包括：...

【专利技术属性】
技术研发人员：王晨成，唐澍澍，杨强，朱旭东，秦绪涛，樊金龙，宋忠洋，张钧鸣，刘铭洋，张小林，
申请(专利权)人：江苏核电有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人