基于深度学习模型的信访要素抽取方法及抽取系统技术方案

技术编号:31499070 阅读:17 留言:0更新日期:2021-12-18 12:46
本发明专利技术公开了一种基于深度学习模型的信访要素抽取方法、抽取系统、电子设备及计算机可读存储介质,包括:提取信访件的文本内容中目标文本数据;对目标文本数据进行预处理,生成针对多种深度学习模型的对应的数据;将预处理后的多种文本数据中的关于信访人的相关信息、受信人相关信息以及信访诉求的文本数据输入到要素抽取模型中进行要素抽取;将关于信访内容以及信访目的的文本数据输入到文本分类模型中进行分类,分别得到要素抽取的结果以及文本分类的结果;将得到的要素抽取的结果以及文本分类的结果推送到终端设备。该方法采用多种模型,能适应不同类型信访件,具有普遍性,并且无需人工进行繁琐要素抽取工作,提高信访人员工作效率。员工作效率。员工作效率。

【技术实现步骤摘要】
基于深度学习模型的信访要素抽取方法及抽取系统


[0001]本专利技术涉及自然语言处理
,尤其涉及基于深度学习模型的信访要素抽取方法、抽取系统、电子设备及计算机可读存储介质。

技术介绍

[0002]随着信息化智能化的快速发展,人民群众法律意识与维权意识也在逐步提升,信访机构需要处理的各类信访件呈现快速的增长,信访信息登记是信访工作的初始环节,是对信访信息的预处理,一个好的信访登记流程,能够有效提升信访工作效率,解决人民群众日益增长的信访需求。
[0003]在过去,信访登记工作大都采取人工阅读信访件,从中获取信访内容,抽取相关信息,该方法存在以下问题:人工阅读的效率较低、因主客观原因导致信访内容丢失而无登记、长信访件给工作人员阅读造成障碍等。种种问题之下,现有的信访登记工作已无法满足人民群众的信访需求,此时,需要更有效的技术来提升信访登记效率。
[0004]现有技术中对信访件内容的处理从人工阅读改进为采用传统机器学习方式进行文本分类以及要素抽取,虽然提高了结果召回率,但仍依赖人工完成,同时也需要大量领域专业知识才能完成,信访登记效率依旧较低;同时只采用一种或两者模型进行信访件内容的文本分类及要素提取,往往完成还需依赖人工操作,不够精确,没有针对性。

技术实现思路

[0005]本专利技术的目的在于克服上述一种或多种现有的技术问题,提供一种基于深度学习模型的信访要素抽取方法、抽取系统、电子设备及计算机可读存储介质,通过对信访件不同类别内容使用不同深度学习模型的输入,有针对性的进行信息的抽取,实现信访要素的自动化抽取,无需人工操作,显著地提高了信访要素抽取效率,有效地提升信访机构工作人员信访登记的工作效率。
[0006]为实现上述目的,本专利技术提供如下技术方案:基于深度学习模型的信访要素抽取方法,包括:提取信访件的文本内容中目标文本数据;对所述目标文本数据进行预处理,生成针对多种深度学习模型的对应的数据;将预处理后的多种所述文本数据中的关于信访人的相关信息、受信人相关信息以及信访诉求的文本数据输入到要素抽取模型中进行要素抽取;将关于信访内容以及信访目的的文本数据输入到文本分类模型中进行分类,分别得到要素抽取的结果以及文本分类的结果;将得到的所述要素抽取的结果以及所述文本分类的结果推送到终端设备。
[0007]优选地,多种所述深度学习模型包括实体关系抽取模型、分层文本分类模型、文本分类模型、规则匹配模型、摘要生成模型;针对实体关系抽取模型,生成包含原始文本、实体列表、关系列表在内的数据;针
对文本分类模型,生成包含原始文本、类别标签在内的数据;针对规则匹配模型,根据专家经验构建受信人库与行政区划库,并在此之上创建规则列表;针对摘要生成模型,生成包含原始文本、摘要文本在内的数据。
[0008]优选地,所述实体关系抽取模型采用Tplinker实体关系抽取模型获取所述信访人的相关信息,包括:对输入数据进行预处理,生成一个用于所述Tplinker实体关系抽取模型训练的数据加载器;将所述输入数据输入所述Tplinker实体关系抽取模型中的BERT编码层中,得到一个握手过程的过程变量;将所述过程变量经过解码器解码后得到关系预测值;将所述输入数据一部分分成用以训练所述Tplinker实体关系抽取模型的训练集,一部分分成用以测试所述Tplinker实体关系抽取模型有效性的测试集;将所述Tplinker实体关系抽取模型置于训练集上训练,训练所使用的数据通过所述数据加载器产生;将所述Tplinker实体关系抽取模型置于测试集上测试,得到实体预测值与关系预测值;计算所述关系预测值与所述实体预测值的评价指标。
[0009]优选地,所述分层文本分类模型具体包括三层,每层所述文本分类模型均先经过BERT编码层进行编码再经过MLP多分类器对所述文本内容进行分类,包括:将所述信访内容输入第一层文本分类模型,得到第一级标签;在所述第一级标签的约束下,将文本输入特定的第二层文本分类模型,得到第二级标签;在前两级标签的约束下,将文本输入特定的第三层文本分类模型,得到第三级标签;组合三级标签,得到最终的内容分类结果。
[0010]优选地,所述文本分类模型采用BERT编码层和RCNN层结合的两阶段模型获取所述信访目的、是否涉诉以及是否扬言,包括:将文本输入BERT编码层,得到编码序列;将所述编码序列输入RCNN层上,得到内容分类结果;所述信访目的包括五类,所述是否涉诉和所述是否扬言包括两类。
[0011]优选地,所述规则匹配模型在应用jieba分词后,通过匹配所述受信人库、行政区划库抽取所述受信人、问题属地、关键词,包括:通过信访件信息匹配所述受信人,如无,通过jieba分词匹配所述受信人库,进而得到受信人;在信访件内容通过jieba分词后,匹配行政区划库,得到问题属地;在得到的jieba分词结果中,通过一定规则,得到关键词列表。
[0012]优选地,所述摘要生成模型使用BERT编码层构建了一个二阶段摘要生成模型获取所述信访人的主要诉求以及主要事实,包括:将信访件正文送入过滤器,去除如信访人的手机号、身份证号无关信息;
如果过滤后的文本长度较短,直接使用生成式模型进行输入,否则,使用抽取式模型进行输入;所述抽取式模型为将输入等分,确保序列长度不超过512,使用所述BERT编码层抽取重要句子,拼接后使用所述生成式模型进行输入;所述生成式模型为使用所述BERT编码层对输入进行编码,在经过解码器解码后生成摘要;将生成的摘要信息送入过滤器,去除无用信息,进而得到所述信访人的主要诉求以及主要事实。
[0013]优选地,通过互联网技术建立网站将信访要素抽取结果返回给客户,包括所述信访人的姓名、手机号码、身份证号、详细地址、信访人物、住址。
[0014]为实现上述目的,本专利技术提供一种基于深度学习模型的信访要素抽取系统,其特征在于,包括:数据提取模块:提取信访件的文本内容中目标文本数据;数据预处理模块:对所述目标文本数据进行预处理,生成针对多种深度学习模型的对应的数据;结果生成模块:将预处理后的多种所述文本数据中的关于信访人的相关信息、受信人相关信息以及信访诉求的文本数据输入到要素抽取模型中进行要素抽取;将关于信访内容以及信访目的的文本数据输入到文本分类模型中进行分类,分别得到要素抽取的结果以及文本分类的结果;结果展示模块:将得到的所述要素抽取的结果以及所述文本分类的结果推送到终端设备。
[0015]为实现上述目的,本专利技术提供一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述中任一项所述的基于深度学习模型的信访要素抽取方法。
[0016]为实现上述目的,本专利技术提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述中任一项所述的基于深度学习模型的信访要素抽取方法。
[0017]基于此,本专利技术的有益效果在于:1. 通过基于深度学习本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度学习模型的信访要素抽取方法,其特征在于,包括:提取信访件的文本内容中目标文本数据;对所述目标文本数据进行预处理,生成针对多种深度学习模型的对应的数据;将预处理后的多种所述文本数据中的关于信访人的相关信息、受信人相关信息以及信访诉求的文本数据输入到要素抽取模型中进行要素抽取;将关于信访内容以及信访目的的文本数据输入到文本分类模型中进行分类,分别得到要素抽取的结果以及文本分类的结果;将得到的所述要素抽取的结果以及所述文本分类的结果推送到终端设备。2.根据权利要求1所述的基于深度学习模型的信访要素抽取方法,其特征在于,多种所述深度学习模型包括实体关系抽取模型、分层文本分类模型、文本分类模型、规则匹配模型、摘要生成模型;针对实体关系抽取模型,生成包含原始文本、实体列表、关系列表在内的数据;针对文本分类模型,生成包含原始文本、类别标签在内的数据;针对规则匹配模型,根据专家经验构建受信人库与行政区划库,并在此之上创建规则列表;针对摘要生成模型,生成包含原始文本、摘要文本在内的数据。3.根据权利要求2所述的基于深度学习模型的信访要素抽取方法,其特征在于,所述实体关系抽取模型采用Tplinker实体关系抽取模型获取所述信访人的相关信息,包括:对输入数据进行预处理,生成一个用于所述Tplinker实体关系抽取模型训练的数据加载器;将所述输入数据输入所述Tplinker实体关系抽取模型中的BERT编码层中,得到一个握手过程的过程变量;将所述过程变量经过解码器解码后得到关系预测值;将所述输入数据一部分分成用以训练所述Tplinker实体关系抽取模型的训练集,一部分分成用以测试所述Tplinker实体关系抽取模型有效性的测试集;将所述Tplinker实体关系抽取模型置于训练集上训练,训练所使用的数据通过所述数据加载器产生;将所述Tplinker实体关系抽取模型置于测试集上测试,得到实体预测值与关系预测值;计算所述关系预测值与所述实体预测值的评价指标。4.根据权利要求2所述的基于深度学习模型的信访要素抽取方法,其特征在于,所述分层文本分类模型具体包括三层,每层所述文本分类模型均先经过BERT编码层进行编码再经过MLP多分类器对所述文本内容进行分类,包括:将所述信访内容输入第一层文本分类模型,得到第一级标签;在所述第一级标签的约束下,将文本输入特定的第二层文本分类模型,得到第二级标签;在前两级标签的约束下,将文本输入特定的第三层文本分类模型,得到第三级标签;组合三级标签,得到最终的内容分类结果。5.根据权利要求2所述的基于深度学习模型的信访要素抽取方法,其特征在于,所述文本分类模型采用BERT编码层和RCNN层结合的两阶段模型获取所述信访目的、是否涉诉以及
...

【专利技术属性】
技术研发人员:郜成胜王宇温立强江永涛靳新磊
申请(专利权)人:北京北大软件工程股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1