System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及核电厂智能函件分发,尤其涉及一种用于核电厂智能函件分发的方法和应用系统。
技术介绍
1、伴随着信息的爆炸式增长,人工标注数据已经变得耗时、质量低下,且受到标注人主观意识的影响。因此,利用机器自动化的实现对文本的标注变得具有现实意义,将重复且枯燥的文本标注任务交由计算机进行处理能够有效克服以上问题,同时所标注的数据具有一致性、高质量等特点。文本分类即是用计算机对文本按照一定的分类体系或标注进行自动分类标记。伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典做法,即特征工程与浅层分类模型结合。又分为传统机器学习方法和深度学习文本分类方法。
2、文本信息分类是自然语言处理领域中一个非常经典的问题,情感分析、意图识别、新闻分类、问答系统等场景获得广泛应用。
技术实现思路
1、本专利技术的目的在于提供一种用于核电厂智能函件分发的方法和应用系统,解决了依赖人工经验对函件进行科室部门分发,效率低下且无法实现自动化流程管理问题。
2、为了实现上述目的,本专利技术提供如下技术方案:
3、一种用于核电厂智能函件分发的方法,包括:
4、步骤1:数据预处理,使用关键句前置、冗余信息处理、函件数据扩充等方式对不同部门函件数据进行数据扩充以及数据裁剪,得到多部门函件分发数据集。
5、步骤2:采用语义预训练模型对文本数据进行encoding,得出该文本的向量矩阵
6、步骤3:对函件文件进行ocr识别得到文本数据,通过多标签文本分类模型预测文本数据所关联部门;
7、步骤4:调用模型训练接口对多标签文本分类模型进行重训练,避免新格式文档出现对原多标签文本分类模型的影响。
8、步骤1包括:
9、步骤1.1:根据关键词表,将多标签样本中样本数据较多的部门的所有核心句移除,生成新的不关联该部门的样本加入数据集对数据集进行扩充;
10、步骤1.2:根据关键词表,将文档中包含相关部门关键词的句子前置;
11、步骤1.3:将数据集中的数据按照关联部门分类。
12、步骤1.3中,将人工验证为无用词汇的高频词加入停用词表。
13、步骤2采用paddlenlp自然语言处理核心开发库语义预训练模型ernie 3.0对文本数据进行encoding,得出该文本的向量矩阵。
14、步骤3包括:
15、步骤3.1:对测试函件文档进行ocr识别,得出文本信息数据;
16、步骤3.2:对文本信息数据进行停用词去除操作处理;
17、步骤3.3:将数据输入多标签文本分类模型,设置最大序列长度为1024;
18、步骤3.4:根据模型预测结果,取置信度>0.4的标签作为可能的关联部门。
19、步骤4包括:
20、步骤4.1:调用模型训练接口对多标签文本分类模型进行重训练;
21、步骤4.2:根据接口传入模型名称将创建模型训练任务;
22、步骤4.3:多标签文本分类模型训练前会检查函件历史记录、函件源文档、ocr识别记录,并进行数据预处理操作生成对应的多部门分发数据集;
23、步骤4.4:多标签文本分类模型开始训练并监测状态写入日志、在训练完成后转移模型到指定文档夹并重启预测模块。
24、步骤4.2中,若存在相同名称的多标签文本分类模型将会覆盖原模型。
25、此外,本专利技术还提供一种用于核电厂智能函件分发的应用系统,包括:数据预处理模块,用于对函件文档数据进行处理;模型训练模块,使用多部门分发模型对多部门函件分发数据集进行多部门分发模型训练;函件文档数据预测模块,对函件文档进行多部门预测,并给出该函件需要分发的部门;模型重训练模块,对新出现格式的函件文档进行重训练。
26、进一步地,函件文档数据预测模块对用户上传的函件文档进行ocr识别,得出函件文档的文本信息数据;对函件文档的文本信息数据进行处理得到标准的文本信息数据;将标准的文本信息数据输入多标签文本分类模型进行模型训练;根据模型预测结果,统计函件文档关联不同部门的概率,并且选取概率高于0.4的标签结果作为该函件文档关联部门。
27、与现有技术相比,本专利技术提供的用于核电厂智能函件分发的方法和应用系统具有以下有益效果:
28、本专利技术优化原有的文本多标签分类技术,应用于函件多科室分发功能;利用关键词表,将函件中不同部门关键词的句子前置;使用函件标题、函件收件人信息、正文内容、函件发件人信息等内容进行模型分类训练;对不同科室部门的所有核心句处理;函件分发模型重训练更新。
29、本专利技术针对函件分发问题,通过深度学习模型对文本进行分析,得到某一函件的关联部门,从而实现函件自动分发。
30、进一步地,函件分发模型使用paddlenlp自然语言处理核心开发库语义预训练模型ernie 3.0对文本数据进行encoding,得出该文本的向量矩阵。使用多分类模型对其进行多标签文本分类模型训练,以及得出最优模型;使用最优模型对其进行函件分发预测。
31、进一步地,本专利技术利用函件文档内容对textrank算法获取各函件的核心词;使用tf-idf算法对样本进行处理得到各部门文档的高频词汇,人工验证获取的高频词是否为有用词汇,将人工验证为无用词汇的高频词加入通用停用词表进行扩充。以此防止包含部门关联重要信息的文本被分词器截断。
本文档来自技高网...【技术保护点】
1.一种用于核电厂智能函件分发的方法,其特征在于,包括:
2.根据权利要求1所述的用于核电厂智能函件分发的方法,其特征在于,步骤1包括:
3.根据权利要求2所述的用于核电厂智能函件分发的方法,其特征在于,步骤1.3中,将人工验证为无用词汇的高频词加入停用词表。
4.根据权利要求2所述的用于核电厂智能函件分发的方法,其特征在于,步骤1.3中,对文本数据进行去停用词处理。
5.根据权利要求1所述的用于核电厂智能函件分发的方法,其特征在于,步骤2采用paddlenlp自然语言处理核心开发库语义预训练模型ERNIE 3.0对文本数据进行处理,得出该文本的向量矩阵。
6.根据权利要求1所述的用于核电厂智能函件分发的方法,其特征在于,步骤3包括:
7.根据权利要求1所述的用于核电厂智能函件分发的方法,其特征在于,步骤4包括:
8.根据权利要求7所述的用于核电厂智能函件分发的方法,其特征在于,步骤4.2中,若存在相同名称的多标签文本分类模型将会覆盖掉原有模型。
9.一种用于核电厂智能函件分发的应用系
10.根据权利要求9所述的用于核电厂智能函件分发的应用系统,其特征在于,函件文档数据预测模块对用户上传的函件文档进行OCR识别,得出函件文档的文本信息数据;对函件文档的文本信息数据进行处理得到标准的文本信息数据;将标准的文本信息数据输入多标签文本分类模型进行模型训练;根据模型预测结果,统计函件文档关联不同部门的概率,并且选取概率高于0.4的标签结果作为该函件文档关联部门。
...【技术特征摘要】
1.一种用于核电厂智能函件分发的方法,其特征在于,包括:
2.根据权利要求1所述的用于核电厂智能函件分发的方法,其特征在于,步骤1包括:
3.根据权利要求2所述的用于核电厂智能函件分发的方法,其特征在于,步骤1.3中,将人工验证为无用词汇的高频词加入停用词表。
4.根据权利要求2所述的用于核电厂智能函件分发的方法,其特征在于,步骤1.3中,对文本数据进行去停用词处理。
5.根据权利要求1所述的用于核电厂智能函件分发的方法,其特征在于,步骤2采用paddlenlp自然语言处理核心开发库语义预训练模型ernie 3.0对文本数据进行处理,得出该文本的向量矩阵。
6.根据权利要求1所述的用于核电厂智能函件分发的方法,其特征在于,步骤3包括:...
【专利技术属性】
技术研发人员:王晨成,唐澍澍,杨强,朱旭东,秦绪涛,樊金龙,宋忠洋,张钧鸣,刘铭洋,张小林,
申请(专利权)人:江苏核电有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。