一种自动公文分拣派发方法和系统技术方案

技术编号:24853115 阅读:24 留言:0更新日期:2020-07-10 19:07
本发明专利技术提供了一种自动公文分拣派发方法和系统。该方法包括:对原始训练数据和待分拣公文数据进行预处理;利用训练数据生成字图;根据字图生成规则并得到规则置信度;对输入的待分拣公文进行根据文本与各标签规则的匹配程度进行分拣判定,并派发至不同部门;输出分拣时所依据的规则作为派发结果进行解释。该系统包括:文本数据预处理模块,字图生成模块,基于字图的规则生成模块,基于规则的公文分拣模块以及分拣派发结果的解释模块等必须组件。本发明专利技术方法不需要进行文本分词操作,不仅具有很高的公文分拣精度,而且具有良好的可解释性,克服了基于深度学习等人工神经网络文本分类方法难以解释分类结果的问题。

【技术实现步骤摘要】
一种自动公文分拣派发方法和系统
本专利技术属于智能信息处理和计算机
,具体涉及一种利用机器学习技术自动对公文文本进行分拣并派发给不同部门的方法和系统。
技术介绍
公文分拣派发就是根据公文电子文本内容,把下发的电子公文分别派发给公文应送达的相关部门。也就是说,一个公文可以派发给不定数目的多个部门。公文分拣派发要求既要精确,又不能遗漏,而且还要求有良好的可解释性。很显然,我们可以利用文本分类方法来解决公文分拣派发问题。当前公文分拣派发任务主要使用的方法分为基于人工定制规则匹配的分类方法和基于大数据的机器学习方法。其中,基于大数据的机器学习方法包含深度学习、支持向量机、随机森林、Boosting、贝叶斯等模型。对于文本分类问题深度学习方法一般可以获得较好精度,但是深度学习方法特别依赖大数据,要求提供海量的训练数据,否则难以具备良好泛化能力。而公文分拣派发任务一般能提供的训练公文数量十分有限,并且派发部门还特别多,数据分布十分不平衡。往往80%的训练数据集中在2、3个部门,而剩下的部门训练数据非常少,甚至只有一两条训练数据。这种情况下,基于深度学习的文本分类方法难以获得较高精度和较强泛化能力,并且基于深度学习的文本分类方法可解释性不足,不利于引入外部先验信息。
技术实现思路
本专利技术提供了一种自动公文分拣派发方法和系统。该方法解决了利用计算机进行公文派发准确度不高,可解释性不强的问题。为实现上述目的,本专利技术采用如下技术方案:一种自动公文分拣派发方法,包括以下步骤:对原始训练数据和待分拣公文数据进行预处理;利用训练数据生成字图;根据字图生成规则并得到规则置信度;对输入的待分拣公文进行根据文本与各标签规则的匹配程度进行分拣判定,并派发至不同部门;输出分拣时所依据的规则作为派发结果进行解释。作为本专利技术的进一步改进,所述对原始训练数据和待分拣公文数据进行预处理,具体为:不对文本进行分词操作,将原始的文本数据分段为句,一句一行,将标点符号消去后将其作为训练数据;再读取标签目录,并针对每个标签分别划分训练数据,按其是否属于当前标签来将训练数据分为正反例。作为本专利技术的进一步改进,所述利用训练数据生成字图,具体为:针对标签目录中每个标签,利用分好的正反例数据分别生成字图;对于每个类别:首先利用类别正例进行字图增添;将读取到的文本正例中每一句按字符分开,每个字符生成字图中一个节点,每个字符对生成一条边,连接字图中两个对应节点;若字图中没有当前字符或字符对,则在字图中添加相应的节点或边,并将新边的权重置为1;若字图中包含当前字符对,则将相应边的权重加1;然后利用类别反例进行字图削减,将读取到的文本反例中每一句按字符分开;若字图中包含当前字符对,则将相应边的权重减1;如此删减后,删去字图中权重较小的边,再删去没有边连接的孤立节点,得到的字图只保留当前类别中出现次数较多的节点和边,可将当前类别中有别于其他类别的信息凸显出来。作为本专利技术的进一步改进,所述根据字图生成规则并得到规则置信度,具体为:基于字图的规则生成模块根据每个标签对应的字图,从该标签正例数据中匹配出与字图相符的字段,计算每个字段在正反例数据中的出现概率,保留概率较高的字段作为分类规则。作为本专利技术的进一步改进,所述分类规则的具体确定步骤为:首先,用窗口大小为k,步长为k/5的滑动窗口将正例文本数据中每一句分成若干长度小于等于k的字段,把这些原始字段放入字图中搜索,根据原始字段中字符对相应边的权重对其进行修改;若某字符对的边在字图中存在则保留该字符对中两个字符,若某一字符与其前后两个字符所组成的字符对在字图中不存在边,则将该字符消去,原本的连续字段将被分开;原始字段经过删减可得到更突出类别信息的候选规则;然后,同样将反例文本数据中每一句分为若干长度小于等于k的原始字段,将候选规则与正反例文本数据所分出的原始字段进行匹配,若候选规则与某原始字段匹配则称该候选规则在该原始字段对应文本中出现,这样可得到每个候选规则在正反例文本数据中出现的比例,将其中出现于正例文本数据的概率在阈值以上的候选规则作为该类别的分类规则。作为本专利技术的进一步改进,所述分类规则由一个或多个连续字符串组成;当使用分类规则与字段匹配时,字段与规则中各字符串按顺序进行匹配,若字段可以从前往后依次与规则中所有字符串全都匹配成功,即在规则中各字符串前后添加任意字符后可与字段完全相同,则称该分类规则与字段匹配。作为本专利技术的进一步改进,所述对输入的待分拣公文进行根据文本与各标签规则的匹配程度进行分拣判定,并派发至不同部门,具体为:首先,将待分拣公文文本进行预处理后,把公文文本中每一句话分为若干长度小于等于k的字段;然后,将这些字段分别与每个类别所属规则进行匹配,已经与某条字段匹配的规则不能再与其他字段匹配;若与某一类别所属规则匹配的字段数大于N或大于当前文本字段数的10%,则将该类别标签作为分类结果之一;当这些字段与所有类别匹配后,即可得到当前公文所对应的所有类别。作为本专利技术的进一步改进,所述公文各类别间不互斥,同一个公文文本能够被分拣派发给多个不同的类别。作为本专利技术的进一步改进,所述输出分拣时所依据的规则作为派发结果进行解释,具体为:给出将公文文本派发给某个部门时所依据的规则;在待处理公文文本与某一部门规则匹配时,保存与其字段匹配的规则,若将该标签作为分拣结果,则将保存匹配到的规则作为分拣结果的解释。一种自动公文分拣派发系统,包括:数据预处理模块,用于对数据进行清洗及数据格式转换;字图生成模块,用于利用训练数据生成字图,基于字图的规则生成模块,用于根据字图生成规则并得到规则置信度;基于规则的公文分拣模块,用于对输入的待分拣公文进行分拣判定并派发至不同部门;分拣派发结果的解释模块,用于输出分拣时所依据的规则对派发结果进行解释。与现有技术相比,本专利技术具有以下有益效果:本专利技术的一种自动公文分拣派发方法,通过文本学习从公文文本中自动学习出各类别相关规则,然后基于所得规则对新公文进行分拣派发。本专利技术方法不需要进行文本分词操作,不仅具有很高的公文分拣精度,而且具有良好的可解释性,克服了基于深度学习等人工神经网络文本分类方法难以解释分类结果的问题。由于本方法不分词,而直接在字级别进行学习,可以自动从公文文本数据中提取规则,省时省力;所提取的规则包含有语序信息,而不仅仅将文本数据视为没有语序的词袋;而且本方法仅使用较少的数据学习即可得到不错的分类效果,使用规则进行分类也使得分类结果可解释性强。本专利技术的一种自动公文分拣派发系统,由数据预处理模块、字图生成模块、基于字图的规则生成模块、基于规则的公文分拣模块以及分拣派发结果的解释模块组成,通过文本学习从公文文本中自动学习出各类别相关规则,然后基于所得规则对新公文进行分拣派发。由于本方法不分词,而直接在字级别进行学习,可以自动从公文文本本文档来自技高网...

【技术保护点】
1.一种自动公文分拣派发方法,其特征在于,包括以下步骤:/n对原始训练数据和待分拣公文数据进行预处理;/n利用训练数据生成字图;/n根据字图生成规则并得到规则置信度;/n对输入的待分拣公文进行根据文本与各标签规则的匹配程度进行分拣判定,并派发至不同部门;/n输出分拣时所依据的规则作为派发结果进行解释。/n

【技术特征摘要】
1.一种自动公文分拣派发方法,其特征在于,包括以下步骤:
对原始训练数据和待分拣公文数据进行预处理;
利用训练数据生成字图;
根据字图生成规则并得到规则置信度;
对输入的待分拣公文进行根据文本与各标签规则的匹配程度进行分拣判定,并派发至不同部门;
输出分拣时所依据的规则作为派发结果进行解释。


2.根据权利要求1所述的自动公文分拣派发方法,其特征在于,
所述对原始训练数据和待分拣公文数据进行预处理,具体为:
不对文本进行分词操作,将原始的文本数据分段为句,一句一行,将标点符号消去后将其作为训练数据;再读取标签目录,并针对每个标签分别划分训练数据,按其是否属于当前标签来将训练数据分为正反例。


3.根据权利要求1所述的自动公文分拣派发方法,其特征在于,
所述利用训练数据生成字图,具体为:
针对标签目录中每个标签,利用分好的正反例数据分别生成字图;对于每个类别:
首先利用类别正例进行字图增添;将读取到的文本正例中每一句按字符分开,每个字符生成字图中一个节点,每个字符对生成一条边,连接字图中两个对应节点;若字图中没有当前字符或字符对,则在字图中添加相应的节点或边,并将新边的权重置为1;若字图中包含当前字符对,则将相应边的权重加1;
然后利用类别反例进行字图削减,将读取到的文本反例中每一句按字符分开;若字图中包含当前字符对,则将相应边的权重减1;如此删减后,删去字图中权重较小的边,再删去没有边连接的孤立节点,得到的字图只保留当前类别中出现次数较多的节点和边,可将当前类别中有别于其他类别的信息凸显出来。


4.根据权利要求1所述的自动公文分拣派发方法,其特征在于,
所述根据字图生成规则并得到规则置信度,具体为:
基于字图的规则生成模块根据每个标签对应的字图,从该标签正例数据中匹配出与字图相符的字段,计算每个字段在正反例数据中的出现概率,保留概率较高的字段作为分类规则。


5.根据权利要求4所述的自动公文分拣派发方法,其特征在于,
所述分类规则的具体确定步骤为:
首先,用窗口大小为k,步长为k/5的滑动窗口将正例文本数据中每一句分成若干长度小于等于k的字段,把这些原始字段放入字图中搜索,根据原始字段中字符对相应边的权重对其进行修改;若某字符对的边在字图中存在则保留该字符对中两个字符,若某一字符与其前后两个字符所组成的字符对在字图中不存在边,则将该字符消去,原本...

【专利技术属性】
技术研发人员:鲍军鹏乔冠卿蒋立华
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1