一种公文文档纠错的方法技术

技术编号:24011211 阅读:164 留言:0更新日期:2020-05-02 01:48
一种公文文档纠错的方法,包括步骤,文种检测,利用机器学习进行文种识别模型训练,将文档文种分类为通知、报告、批复、通报、函、会议纪要、请示之类型;错误检测步骤,包括通过中文分词器切词,从字粒度和词粒度方面检测错误,整合这两种粒度检测的疑似错误结果,形成疑似错误位置候选集;使用双向字符级N‑gram LM深度学习模型,对句子里的字符打分,得分低的地方视为待纠错位置,将待纠错位置与上下文组合进行词典查词,当所有组合在词典中都查找不到,则将其视为错字,加入错误位置候选集。上述方案结合行文规范、内容不全的、立题不明、语法纠错、通顺性检测、上下文关联等审核要求,该特点对现有技术方案进行创新改造和结合,经过测试能够有效提升企业电子公文文档纠错的效果。

A method of correcting document errors

【技术实现步骤摘要】
一种公文文档纠错的方法
本专利技术涉及文本分析领域,尤其涉及一种辅助公文文档纠错的方法。
技术介绍
随着信息化建设的不断推进和无纸化办公迅速发展,各级业务部门产生了大量电子文档,电子文档作为企业生产经营的信息资源,文档质量控制与管理直接关系到企业形象和办公效率,特别企业公文文档质量的保障是一项极富挑战和专业水准的工作。因此,提供实时的无处不在的引导、纠错和辅助功能,最大限度地保证拟稿人在拟稿过程中获得全方位的帮助,可以从源头上切实加强了公文内容的质量管理。企业公文文档质量问题虽然纷繁复杂、表现不一,但大体可归为两类:形式和内容。即以要素版式、格式差错为代表的形式问题和以要素内涵偏差为代表的内容问题。对公文的文体格式、行文规则等进行智能引导和实时控制,通过清晰友好的人机交互界面将公文管理报批规则和公司的运营管控思路融入到电子公文的纠错及校审当中来,可以极大的提高企业公文管理质量,推进规范化、信息化的发展,助力企业发展。本专利技术提出一种面向企业电子公文类文档纠错的方法和系统,充分利用企业公文文档的特点,设计了针对性的算法和解决方案,从而能够有效提升企业公文文档纠错的准确度、覆盖度和效果。
技术实现思路
为此,需要提供一种公文文档纠错的方法,解决特定类型文档纠错不够全面的问题。为实现上述目的,专利技术人提供了一种公文文档纠错的方法,包括步骤,文种检测,利用机器学习进行文种识别模型训练,将文档文种分类为通知、报告、批复、通报、函、会议纪要、请示之类型;错误检测步骤,包括通过中文分词器切词,从字粒度和词粒度方面检测错误,整合这两种粒度检测的疑似错误结果,形成疑似错误位置候选集;使用双向字符级N-gramLM深度学习模型,对句子里的字符打分,得分低的地方视为待纠错位置,将待纠错位置与上下文组合进行词典查词,当所有组合在词典中都查找不到,则将其视为错字,加入错误位置候选集;通过传统语言模型对输入的单词序列判断其是否合乎给定的语法,分析出合乎语法的句子的句法结构,并进行打分,低于阀值的句法结构,纳入规范错误候选集;知识计算环节,利用文本关联及文本理解两个维度的局部知识进行纠错,关联知识纠错包括,通过原始错误标题在标准语料中基于检索或者上下文模式匹配的方式,补充同原始标题相关的精准局部知识,利用局部知识来辅助纠错排序;文本理解纠错包括,通过对文本进行语义分析得到语义特征,利用LSTMs模型进行表达应用到纠错排序模型中。进一步地,还包括候选召回,还包括结合公文行文规范及内容检测生成候选召回,基于HMM和图理论方法生成纠错候选。具体地,所述文种识别模型建立包括如下步骤,基于词典匹配的方法,在文本中查找文种类型为K的词库中的词汇,从文本中提取每个标题的词法表达式,筛选出新增的词法表达式模型,加入到类型为K的候选模式库中,计算每个候选模式的得分,选择得分大于阈值t1的模式加入到类型为K的模式库T。区别于现有技术,能够充分利用企业电子公文文档的特点(包括具有鲜明的政治性;由法定作者制成和发布的;具有法定的权威性和行政约束力;有严格的时效性;具有特定的体式),并结合行文规范、内容不全的、立题不明、语法纠错、通顺性检测、上下文关联等审核要求,该特点对现有技术方案进行创新改造和结合,经过测试能够有效提升企业电子公文文档纠错的效果。附图说明图1为本专利技术一实施方式涉及的流程图;具体实施方式为详细说明技术方案的
技术实现思路
、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。企业公文文档的纠错是对给定的企业公文文档,对拼写错误、用词错误、文法、句法错误、行文规范错误及公司运营的管控规范进行全方位的错误检测,文档纠错核心的关键步骤为错误检测、侯选召回、纠错评价排序,本专利也采用这个思路。与现有方法不同的是,本专利技术旨在解决企业电子公文文档纠错问题,融合规则与深度学习模块的解决思路,加入企业电子公文的处理条例的审核要求及企业的管控规范,构建针对企业公文文档对应的纠错解决思路。企业电子公文主要包括通知、报告、批复、通报、函、会议纪要、函、请示等类型,具有以下显著的特点:1)形式上有明确的行文规范,为了保持公文形式上的严肃和美观,所有公文要素均有相对统一具体严谨的格式规定。公文的各种体例格式的外在表现,即诸种公文要素在字体、字号、摆放位置、编排方式等方面的规定。为了保持公文形式上的严肃和美观,所有公文要素均有相对统一具体严谨的格式规定。在行文规范上,比如公文标题的拟制上面,通常存在张冠李戴、文种错用、文种并用、要素缺失等问题,常见示例:“文种并用”指两种法定公文文种在标题中同时使用,常见错误如“关于……请示报告”、“关于……请示函”、“关于……决定(批复)的通知(通报、决议)”等。文档纠错根据公文内容及行文关系合理选择其中的一个文种,“函呈”不分的“请示报告”则应将“请示报告”改为“函”。“要素缺失”问题,一般公文包括文种、行文单位、事由,不可随意省略,即使省略,也不宜将“三要素”省略两项。常见错误如《××公司决定》,应补上事由,修改为《××公司关于……的决定》;只有文种的公文标题是不规范的,如《通知》(×发〔19××〕140号)、《通报》等。2)内容上有核心的主题,都是围绕某个主旨的具体呈现,即诸种公文要素在特定公文中的特定表达。单就一份公文而言,秘密等级、紧急程度如何确定?发文字号如何编码?标题的文种、主送和抄送单位的区分、会签单位的认定、正文的结构、语言、标点等等,都有明确的要求。在内容主题上面,例如根据公司公文管理办法,特定功能的公文必须会签特定的职能单位,如“涉及集团公司领导出席的大型会议、外事活动安排,须会签办公厅;涉及人事管理、劳动工资事项,须会签人力资源部;涉及财务管理事项,须会签财务总部;涉及诉讼、仲裁等法律事务,须会签法律部”等等。为引导撰稿人正确标识会签单位,系统会最大限度地由文种、标题等信息以关键词方式自动判断公文所须会签的职能部门,在“会签单位”一栏默认显示推荐或强制性选项。例如涉及公司秘密的公文应当标明密级和保密期限其中“绝密”、“机密”级公文还应当标明份数。发文单位标识应当使用发文单位全称或者规范化简称联合行文,主办单位排列在前,发文字号应当包括公司代字、年份、序号,联合行文只标明主办单位发文字号等。请参阅图1,本专利技术充分利用了企业公文文档的上述特点,改进了现有文档纠错的算法和过程,其主要流程如下:步骤1:数据及词典、错误模型准备。收集历年来标准的企业公文文档的样本数据,根据文种进行标注分类归档。根据相关公文处理条例,结合各种文种规范用语及常见典型错误,从拼写错误、用词错误、文法、句法错误、行文规范错误及公司运营的管控规范构建词典,除了通用音似、形似词典以外,还针对文种类型构建语言模型、用词模型、文法模型、句法模型、规范模型,用于错误检测的辅助判断。在传统的拼写错误文本纠错基础上,增加纠错评审模型,针对企业公文文档的行文规范及主本文档来自技高网
...

【技术保护点】
1.一种公文文档纠错的方法,其特征在于,包括步骤,文种检测,利用机器学习进行文种识别模型训练,将文档文种分类为通知、报告、批复、通报、函、会议纪要、请示之类型;/n错误检测步骤,包括通过中文分词器切词,从字粒度和词粒度方面检测错误,整合这两种粒度检测的疑似错误结果,形成疑似错误位置候选集;/n使用双向字符级N-gram LM深度学习模型,对句子里的字符打分,得分低的地方视为待纠错位置,将待纠错位置与上下文组合进行词典查词,当所有组合在词典中都查找不到,则将其视为错字,加入错误位置候选集;/n通过传统语言模型对输入的单词序列判断其是否合乎给定的语法,分析出合乎语法的句子的句法结构,并进行打分,低于阀值的句法结构,纳入规范错误候选集;/n知识计算环节,利用文本关联及文本理解两个维度的局部知识进行纠错,关联知识纠错包括,通过原始错误标题在标准语料中基于检索或者上下文模式匹配的方式,补充同原始标题相关的精准局部知识,利用局部知识来辅助纠错排序;文本理解纠错包括,通过对文本进行语义分析得到语义特征,利用LSTMs模型进行表达应用到纠错排序模型中。/n

【技术特征摘要】
1.一种公文文档纠错的方法,其特征在于,包括步骤,文种检测,利用机器学习进行文种识别模型训练,将文档文种分类为通知、报告、批复、通报、函、会议纪要、请示之类型;
错误检测步骤,包括通过中文分词器切词,从字粒度和词粒度方面检测错误,整合这两种粒度检测的疑似错误结果,形成疑似错误位置候选集;
使用双向字符级N-gramLM深度学习模型,对句子里的字符打分,得分低的地方视为待纠错位置,将待纠错位置与上下文组合进行词典查词,当所有组合在词典中都查找不到,则将其视为错字,加入错误位置候选集;
通过传统语言模型对输入的单词序列判断其是否合乎给定的语法,分析出合乎语法的句子的句法结构,并进行打分,低于阀值的句法结构,纳入规范错误候选集;
知识计算环节,利用文本关联及文本理解两个维度的局部知识进行纠错,关联知识纠错包括,通过...

【专利技术属性】
技术研发人员:李建华谢可庄莉梁懿苏江文王秋琳刘泽三邱镇
申请(专利权)人:福建亿榕信息技术有限公司国网信息通信产业集团有限公司国网信通亿力科技有限责任公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1