基于深度学习模型的信访要素抽取方法及抽取系统技术方案

技术编号：31499070 阅读：17 留言：0更新日期：2021-12-18 12:46

本发明专利技术公开了一种基于深度学习模型的信访要素抽取方法、抽取系统、电子设备及计算机可读存储介质，包括：提取信访件的文本内容中目标文本数据；对目标文本数据进行预处理，生成针对多种深度学习模型的对应的数据；将预处理后的多种文本数据中的关于信访人的相关信息、受信人相关信息以及信访诉求的文本数据输入到要素抽取模型中进行要素抽取；将关于信访内容以及信访目的的文本数据输入到文本分类模型中进行分类，分别得到要素抽取的结果以及文本分类的结果；将得到的要素抽取的结果以及文本分类的结果推送到终端设备。该方法采用多种模型，能适应不同类型信访件，具有普遍性，并且无需人工进行繁琐要素抽取工作，提高信访人员工作效率。员工作效率。员工作效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习模型的信访要素抽取方法及抽取系统

[0001]本专利技术涉及自然语言处理
，尤其涉及基于深度学习模型的信访要素抽取方法、抽取系统、电子设备及计算机可读存储介质。

技术介绍

[0002]随着信息化智能化的快速发展，人民群众法律意识与维权意识也在逐步提升，信访机构需要处理的各类信访件呈现快速的增长，信访信息登记是信访工作的初始环节，是对信访信息的预处理，一个好的信访登记流程，能够有效提升信访工作效率，解决人民群众日益增长的信访需求。
[0003]在过去，信访登记工作大都采取人工阅读信访件，从中获取信访内容，抽取相关信息，该方法存在以下问题：人工阅读的效率较低、因主客观原因导致信访内容丢失而无登记、长信访件给工作人员阅读造成障碍等。种种问题之下，现有的信访登记工作已无法满足人民群众的信访需求，此时，需要更有效的技术来提升信访登记效率。
[0004]现有技术中对信访件内容的处理从人工阅读改进为采用传统机器学习方式进行文本分类以及要素抽取，虽然提高了结果召回率，但仍依赖人工完成，同时也需要大量领域专业知识才能完成，信访登记效率依旧较低；同时只采用一种或两者模型进行信访件内容的文本分类及要素提取，往往完成还需依赖人工操作，不够精确，没有针对性。

技术实现思路

[0005]本专利技术的目的在于克服上述一种或多种现有的技术问题，提供一种基于深度学习模型的信访要素抽取方法、抽取系统、电子设备及计算机可读存储介质，通过对信访件不同类别内容使用不同深度学习模型的输入，有针对性的进行信息的抽...

【技术保护点】

【技术特征摘要】
1.基于深度学习模型的信访要素抽取方法，其特征在于，包括：提取信访件的文本内容中目标文本数据；对所述目标文本数据进行预处理，生成针对多种深度学习模型的对应的数据；将预处理后的多种所述文本数据中的关于信访人的相关信息、受信人相关信息以及信访诉求的文本数据输入到要素抽取模型中进行要素抽取；将关于信访内容以及信访目的的文本数据输入到文本分类模型中进行分类，分别得到要素抽取的结果以及文本分类的结果；将得到的所述要素抽取的结果以及所述文本分类的结果推送到终端设备。2.根据权利要求1所述的基于深度学习模型的信访要素抽取方法，其特征在于，多种所述深度学习模型包括实体关系抽取模型、分层文本分类模型、文本分类模型、规则匹配模型、摘要生成模型；针对实体关系抽取模型，生成包含原始文本、实体列表、关系列表在内的数据；针对文本分类模型，生成包含原始文本、类别标签在内的数据；针对规则匹配模型，根据专家经验构建受信人库与行政区划库，并在此之上创建规则列表；针对摘要生成模型，生成包含原始文本、摘要文本在内的数据。3.根据权利要求2所述的基于深度学习模型的信访要素抽取方法，其特征在于，所述实体关系抽取模型采用Tplinker实体关系抽取模型获取所述信访人的相关信息，包括：对输入数据进行预处理，生成一个用于所述Tplinker实体关系抽取模型训练的数据加载器；将所述输入数据输入所述Tplinker实体关系抽取模型中的BERT编码层中，得到一个握手过程的过程变量；将所述过程变量经过解码器解码后得到关系预测值；将所述输入数据一部分分成用以训练所述Tplinker实体关系抽取模型的训练集，一部分分成用以测试所述Tplinker实体关系抽取模型有效性的测试集；将所述Tplinker实体关系抽取模型置于训练集上训练，训练所使用的数据通过所述数据加载器产生；将所述Tplinker实体关系抽取模型置于测试集上测试，得到实体预测值与关系预测值；计算所述关系预测值与所述实体预测值的评价指标。4.根据权利要求2所述的基于深度学习模型的信访要素抽取方法，其特征在于，所述分层文本分类模型具体包括三层，每层所述文本分类模型均先经过BERT编码层进行编码再经过MLP多分类器对所述文本内容进行分类，包括：将所述信访内容输入第一层文本分类模型，得到第一级标签；在所述第一级标签的约束下，将文本输入特定的第二层文本分类模型，得到第二级标签；在前两级标签的约束下，将文本输入特定的第三层文本分类模型，得到第三级标签；组合三级标签，得到最终的内容分类结果。5.根据权利要求2所述的基于深度学习模型的信访要素抽取方法，其特征在于，所述文本分类模型采用BERT编码层和RCNN层结合的两阶段模型获取所述信访目的、是否涉诉以及
...

【专利技术属性】
技术研发人员：郜成胜，王宇，温立强，江永涛，靳新磊，
申请(专利权)人：北京北大软件工程股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人