一种自动公文分拣派发方法和系统技术方案

技术编号:24853115 阅读:26 留言:0更新日期:2020-07-10 19:07
本发明专利技术提供了一种自动公文分拣派发方法和系统。该方法包括:对原始训练数据和待分拣公文数据进行预处理;利用训练数据生成字图;根据字图生成规则并得到规则置信度;对输入的待分拣公文进行根据文本与各标签规则的匹配程度进行分拣判定,并派发至不同部门;输出分拣时所依据的规则作为派发结果进行解释。该系统包括:文本数据预处理模块,字图生成模块,基于字图的规则生成模块,基于规则的公文分拣模块以及分拣派发结果的解释模块等必须组件。本发明专利技术方法不需要进行文本分词操作,不仅具有很高的公文分拣精度,而且具有良好的可解释性,克服了基于深度学习等人工神经网络文本分类方法难以解释分类结果的问题。

【技术实现步骤摘要】
一种自动公文分拣派发方法和系统
本专利技术属于智能信息处理和计算机
,具体涉及一种利用机器学习技术自动对公文文本进行分拣并派发给不同部门的方法和系统。
技术介绍
公文分拣派发就是根据公文电子文本内容,把下发的电子公文分别派发给公文应送达的相关部门。也就是说,一个公文可以派发给不定数目的多个部门。公文分拣派发要求既要精确,又不能遗漏,而且还要求有良好的可解释性。很显然,我们可以利用文本分类方法来解决公文分拣派发问题。当前公文分拣派发任务主要使用的方法分为基于人工定制规则匹配的分类方法和基于大数据的机器学习方法。其中,基于大数据的机器学习方法包含深度学习、支持向量机、随机森林、Boosting、贝叶斯等模型。对于文本分类问题深度学习方法一般可以获得较好精度,但是深度学习方法特别依赖大数据,要求提供海量的训练数据,否则难以具备良好泛化能力。而公文分拣派发任务一般能提供的训练公文数量十分有限,并且派发部门还特别多,数据分布十分不平衡。往往80%的训练数据集中在2、3个部门,而剩下的部门训练数据非常少,甚至只有一两条训练数据。这种情本文档来自技高网...

【技术保护点】
1.一种自动公文分拣派发方法,其特征在于,包括以下步骤:/n对原始训练数据和待分拣公文数据进行预处理;/n利用训练数据生成字图;/n根据字图生成规则并得到规则置信度;/n对输入的待分拣公文进行根据文本与各标签规则的匹配程度进行分拣判定,并派发至不同部门;/n输出分拣时所依据的规则作为派发结果进行解释。/n

【技术特征摘要】
1.一种自动公文分拣派发方法,其特征在于,包括以下步骤:
对原始训练数据和待分拣公文数据进行预处理;
利用训练数据生成字图;
根据字图生成规则并得到规则置信度;
对输入的待分拣公文进行根据文本与各标签规则的匹配程度进行分拣判定,并派发至不同部门;
输出分拣时所依据的规则作为派发结果进行解释。


2.根据权利要求1所述的自动公文分拣派发方法,其特征在于,
所述对原始训练数据和待分拣公文数据进行预处理,具体为:
不对文本进行分词操作,将原始的文本数据分段为句,一句一行,将标点符号消去后将其作为训练数据;再读取标签目录,并针对每个标签分别划分训练数据,按其是否属于当前标签来将训练数据分为正反例。


3.根据权利要求1所述的自动公文分拣派发方法,其特征在于,
所述利用训练数据生成字图,具体为:
针对标签目录中每个标签,利用分好的正反例数据分别生成字图;对于每个类别:
首先利用类别正例进行字图增添;将读取到的文本正例中每一句按字符分开,每个字符生成字图中一个节点,每个字符对生成一条边,连接字图中两个对应节点;若字图中没有当前字符或字符对,则在字图中添加相应的节点或边,并将新边的权重置为1;若字图中包含当前字符对,则将相应边的权重加1;
然后利用类别反例进行字图削减,将读取到的文本反例中每一句按字符分开;若字图中包含当前字符对,则将相应边的权重减1;如此删减后,删去字图中权重较小的边,再删去没有边连接的孤立节点,得到的字图只保留当前类别中出现次数较多的节点和边,可将当前类别中有别于其他类别的信息凸显出来。


4.根据权利要求1所述的自动公文分拣派发方法,其特征在于,
所述根据字图生成规则并得到规则置信度,具体为:
基于字图的规则生成模块根据每个标签对应的字图,从该标签正例数据中匹配出与字图相符的字段,计算每个字段在正反例数据中的出现概率,保留概率较高的字段作为分类规则。


5.根据权利要求4所述的自动公文分拣派发方法,其特征在于,
所述分类规则的具体确定步骤为:
首先,用窗口大小为k,步长为k/5的滑动窗口将正例文本数据中每一句分成若干长度小于等于k的字段,把这些原始字段放入字图中搜索,根据原始字段中字符对相应边的权重对其进行修改;若某字符对的边在字图中存在则保留该字符对中两个字符,若某一字符与其前后两个字符所组成的字符对在字图中不存在边,则将该字符消去,原本...

【专利技术属性】
技术研发人员:鲍军鹏乔冠卿蒋立华
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1