一种处理重复信件的方法、装置、存储介质和电子设备制造方法及图纸

技术编号:34529779 阅读:16 留言:0更新日期:2022-08-13 21:22
本申请实施例提供一种处理重复信件的方法、装置、存储介质和电子设备,该方法包括:获取待处理重复信件;对待处理重复信件进行实体抽取,得到实体抽取结果;将实体抽取结果输入到预先训练好的分类模型中,得到待处理重复信件的分类结果;基于待处理重复信件的分类结果,对待处理重复信件执行相应的处理。借助于上述技术方案,本申请实施例至少能够实现降低人工审核压力,以及还能够提高审核效率的技术效果。效果。效果。

【技术实现步骤摘要】
一种处理重复信件的方法、装置、存储介质和电子设备


[0001]本申请涉及计算机
,尤其涉及一种处理重复信件的方法、装置、存储介质和电子设备。

技术介绍

[0002]处理重复信件是指同一人员在一定时期两次以上提出同一事项的行为。其中,重复信件可以分为不予处理的重复信件和不再受理的重复信件。
[0003]目前,现有的处理重复信件的方法主要是通过人工审查的方法来进行的。
[0004]在实现本专利技术的过程中,专利技术人发现现有技术中存在如下问题:由于现有的处理重复信件的方法是通过人工审查的方式来实现的,故其存在着审查效率比较低的问题。

技术实现思路

[0005]本申请实施例的目的在于提供一种处理重复信件的方法、装置、存储介质和电子设备,以提高审核效率。
[0006]第一方面,本申请实施例提供了一种处理重复信件的方法,该方法包括:获取待处理重复信件;对待处理重复信件进行实体抽取,得到实体抽取结果;将实体抽取结果输入到预先训练好的分类模型中,得到待处理重复信件的分类结果;基于待处理重复信件的分类结果,对待处理重复信件执行相应的处理。
[0007]因此,借助于上述技术方案,本申请实施例能够实现对重复信件的自动识别,从而相比于现有的人工审查的方法,其至少能够实现降低人工审核压力,以及还能够提高审核效率的技术效果。
[0008]在一个可能的实施例中,对待处理重复信件进行实体抽取,得到实体抽取结果,包括:将待处理重复信件输入到训练好的BiLSTM

CRF模型中,得到实体抽取结果。
[0009]在一个可能的实施例中,BiLSTM

CRF模型的训练过程包括:获取样本训练数据;其中,样本训练数据是通过对样本重复信件进行预处理后得到的,样本重复信件的预处理包括为样本重复信件中的标点符合添加标识;利用样本训练数据对初始BiLSTM

CRF模型进行训练,得到训练好的BiLSTM

CRF模型。
[0010]在一个可能的实施例中,待处理重复信件包括目标人员,实体抽取结果包括目标人员的姓名、目标人员的身份证号、目标人员的地址和目标人员对应的信件问题的归属地。
[0011]第二方面,本申请实施例提供了一种处理重复信件的装置,该装置包括:第一获取模块,用于获取待处理重复信件;实体抽取模块,用于对待处理重复信件进行实体抽取,得到实体抽取结果;输入模块,用于将实体抽取结果输入到预先训练好的分类模型中,得到待处理重复信件的分类结果;处理模块,用于基于待处理重复信件的分类结果,对待处理重复信件执行相应的处理。
[0012]在一个可能的实施例中,实体抽取模块,用于将待处理重复信件输入到训练好的BiLSTM

CRF模型中,得到实体抽取结果。
[0013]在一个可能的实施例中,装置还包括:第二获取模块,用于获取样本训练数据;其中,样本训练数据是通过对样本重复信件进行预处理后得到的,样本重复信件的预处理包括为样本重复信件中的标点符合添加标识;训练模块,用于利用样本训练数据对初始BiLSTM

CRF模型进行训练,得到训练好的BiLSTM

CRF模型。
[0014]在一个可能的实施例中,待处理重复信件包括目标人员,实体抽取结果包括目标人员的姓名、目标人员的身份证号、目标人员的地址和目标人员对应的信件问题的归属地。
[0015]第三方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
[0016]第四方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
[0017]第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
[0018]为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0019]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0020]图1示出了本申请实施例提供的一种处理重复信件的方法的流程图;图2示出了本申请实施例提供的一种处理重复信件的装置的结构框图;图3是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
[0021]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]重复信件的文本资料的主要来源是信息中心登记的重复信件资料,主要是目标人员(目标人员指发出信件的人员)反映的问题主要内容,信件编号以及包括部分姓名、证件号码和信件目的等,其存在数据缺失的情况。为了进一步提升处理信件工作效能,解决重复信件率居高不下的问题,强力推动问题解决和矛盾化解,切实维护群众合法权益,急需在短时间内(例如,三年等)大幅下降重复信件事项。
[0023]究其本质,重复信件的自动识别属于一个信息抽取和多分类的问题。其中,信息抽取为从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提
取和重构。以及,这些信息通常包括实体、关系和事件。例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。在重复信件处理中,主要是需要从投诉内容中抽取出目标人员姓名、证件号码、地址、问题属地,补充完整我们的信件投诉内容,以便相关人员进行核对审查。
[0024]以及,在文本分类领域内,其实现方法大致可以分为两类:基于传统的文本分类和基于深度学习的文本分类。其中,传统的文本分类算法包括朴素贝叶斯等,但是由于传统的文本分类方法存在一定的弊端,其特征表达能力还有待提高,在文本分类领域中虽然广泛使用,但是分类效果不能达到最优。随着深度学习的推进,许多深度学习算法也被广泛应用与文本分类任务中,比如TextRNN和FastText等模型,通过使词语进行向量化操作来解决文本表示,例如word2vec等方法,然后再自动获取特征表达能力,不需要再人工地进行繁杂的特征工程,使得文本分类任务效果得到了提升。近年来,大规模通用的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理重复信件的方法,其特征在于,包括:获取待处理重复信件;对所述待处理重复信件进行实体抽取,得到实体抽取结果;将所述实体抽取结果输入到预先训练好的分类模型中,得到所述待处理重复信件的分类结果;基于所述待处理重复信件的分类结果,对所述待处理重复信件执行相应的处理。2.根据权利要求1所述的方法,其特征在于,所述对所述待处理重复信件进行实体抽取,得到实体抽取结果,包括:将所述待处理重复信件输入到训练好的BiLSTM

CRF模型中,得到所述实体抽取结果。3.根据权利要求2所述的方法,其特征在于,所述BiLSTM

CRF模型的训练过程包括:获取样本训练数据;其中,所述样本训练数据是通过对样本重复信件进行预处理后得到的,所述样本重复信件的预处理包括为所述样本重复信件中的标点符合添加标识;利用所述样本训练数据对初始BiLSTM

CRF模型进行训练,得到所述训练好的BiLSTM

CRF模型。4.根据权利要求1或2所述的方法,其特征在于,所述待处理重复信件包括目标人员,所述实体抽取结果包括所述目标人员的姓名、所述目标人员的身份证号、所述目标人员的地址和所述目标人员对应的信件问题的归属地。5.一种处理重复信件的装置,其特征在于,包括:第一获取模块,用于获取待处理重复信件;实体抽取模块,用于对所述待处理重复信件进行实体抽取,得到实体抽取结果;输入模块,用于将所述实体抽取结果输入到预先训练好的分类模型中,得到所述待处理重复信件的分类...

【专利技术属性】
技术研发人员:李双贺王颖冯添鄢阁俊陈一朴
申请(专利权)人:北京北大软件工程股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1